WO2019234952A1 - 音声処理装置および翻訳装置 - Google Patents

音声処理装置および翻訳装置 Download PDF

Info

Publication number
WO2019234952A1
WO2019234952A1 PCT/JP2018/044735 JP2018044735W WO2019234952A1 WO 2019234952 A1 WO2019234952 A1 WO 2019234952A1 JP 2018044735 W JP2018044735 W JP 2018044735W WO 2019234952 A1 WO2019234952 A1 WO 2019234952A1
Authority
WO
WIPO (PCT)
Prior art keywords
period
audio signal
signal
input
voice
Prior art date
Application number
PCT/JP2018/044735
Other languages
English (en)
French (fr)
Inventor
石川 智一
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN201880093359.4A priority Critical patent/CN112119455A/zh
Publication of WO2019234952A1 publication Critical patent/WO2019234952A1/ja
Priority to US17/105,894 priority patent/US20210082456A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/542Event management; Broadcasting; Multicasting; Notifications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Definitions

  • the present disclosure provides a speech processing device that can give a notice to a speaker that a speech is being input at an excessive volume.
  • Patent Document 1 discloses a television system capable of translating input speech in one language into speech in a plurality of languages.
  • a television system breaks an input audio signal into volume, tone, and timbre.
  • the television system outputs translated speech signals in multiple languages fused with the decomposed volume, tone, and timbre.
  • a voice processing device that can give a notice to a speaker that a voice is being input at an excessive volume.
  • the speech processing apparatus includes an input unit, a processing unit, a level detection unit, an output speech conversion unit, and an output unit.
  • the input unit inputs sound and generates an input sound signal.
  • the processing unit generates a first output audio signal based on the input audio signal.
  • the level detection unit detects a first period in which the signal level is higher than a predetermined level in the input audio signal.
  • the output sound conversion unit generates a second output sound signal by performing signal processing different from the signal processing of the other period on the signal level of the second period corresponding to the first period in the first output sound signal. .
  • the output unit outputs sound based on the second output sound signal.
  • a voice processing device that can give a notice to a speaker that a voice is being input with an excessive volume.
  • Diagram showing the appearance of the translation device Block diagram showing the configuration of the translation system
  • voice data of the appropriate level input into a translation apparatus shows
  • voice data input into a translation apparatus shows The flowchart which shows the translation process by the translation apparatus concerning Embodiment 1.
  • voice data input into the translation apparatus concerning Embodiment 1 shows The figure which shows the waveform of the speech signal which the speech synthesis data produced
  • the figure which shows the processing which amplifies the output level of speech synthesis data The figure which shows the waveform of the speech signal which the speech synthesis data input into the translation apparatus concerning Embodiment 2 shows The figure which shows the waveform of the audio
  • a block diagram showing a configuration of a translation system according to Embodiment 3 The flowchart which shows the operation
  • a translation device will be described as an embodiment of a speech processing device.
  • FIG. 1 is a diagram illustrating an appearance of a translation device that is an embodiment of a speech processing device according to the first embodiment.
  • the translation device 1 shown in FIG. 1 is a device that translates a conversation between a host speaking in a first language and a guest speaking in a second language. Via the translation apparatus 1, the host and the guest can face each other and talk in their respective languages.
  • the translation device 1 performs translation from the first language to the second language and translation from the second language to the first language.
  • the translation apparatus 1 outputs the translation result by voice.
  • the host and the guest can grasp each other's utterances from the voice output from the translation apparatus 1.
  • the first language is Japanese and the second language is English.
  • the translation apparatus 1 includes a guest microphone 10a, a host microphone 10b, a speaker 12, a display 14, and a touch panel 15.
  • the guest side microphone 10a and the host side microphone 10b are examples of an input unit.
  • the speaker 12 is an example of an output unit.
  • the guest microphone 10a converts the voice spoken by the guest into input voice data that is a digital voice signal.
  • the host-side microphone 10b converts voice spoken by the host into input voice data that is a digital voice signal. That is, the guest side microphone 10 a and the host side microphone 10 b function as a voice input unit that inputs voice data to the voice processing device 1.
  • Display 14 displays a character string and an image based on an operation by a guest or a host.
  • the display 14 includes a liquid crystal display or an organic EL display.
  • the touch panel 15 is superposed on the display 14.
  • the touch panel 15 can accept a touch operation by a guest or a host.
  • the speaker 12 is a device that outputs sound, for example, outputs sound indicating the contents of the translation result.
  • the translation apparatus 1 displays a guest side voice input button 14 a and a host side voice input button 14 b on the display 14.
  • Translation apparatus 1 detects pressing of voice input buttons 14 a and 14 b via touch panel 15.
  • the translation apparatus 1 starts to acquire the input voice data from the guest side microphone 10a when detecting the pressing of the voice input button 14a by the guest.
  • the translation apparatus 1 detects again that the voice input button 14a is pressed during the acquisition of the input voice data, the translation apparatus 1 ends the acquisition of the input voice data.
  • the translation device 1 performs a translation process from English to Japanese and outputs Japanese output voice data from the speaker 12.
  • the translation apparatus 1 when the translation apparatus 1 detects pressing of the voice input button 14b by the host, the translation apparatus 1 starts acquiring input voice data from the host-side microphone 10b.
  • the translation apparatus 1 detects again that the voice input button 14b is pressed during the acquisition of the input voice data, the translation apparatus 1 ends the acquisition of the input voice data.
  • the translation device 1 performs a translation process from Japanese to English, and outputs English output voice data from the speaker 12.
  • the translation apparatus 1 automatically ends the acquisition of the input voice data by detecting that the volume level of the input voice data from the guest side microphone 10a and the host side microphone 10b is equal to or lower than a predetermined threshold value. May be.
  • FIG. 2 is a block diagram showing a configuration of the translation system according to the present embodiment.
  • the translation system shown in FIG. 2 further includes a speech recognition server 3, a translation server 4, and a speech synthesis server 5 in addition to the translation device 1 of FIG.
  • the speech recognition server 3 is a server that receives input speech data from the translation device 1 via the network 2 and recognizes the input speech data to generate speech recognition data of a character string.
  • the translation server 4 is a server that receives speech recognition data from the translation device 1 via the network 2 and translates the speech recognition data to generate character string translation data.
  • the translation server 4 translates a Japanese character string into an English character string or an English character string into a Japanese character string.
  • the speech synthesis server 5 is a server that receives translation data of a character string from the translation apparatus 1 via the network 2 and generates speech synthesis data by synthesizing the translation data.
  • the translation device 1 further includes a storage unit 23, a communication unit 18, and a control unit 20.
  • the storage unit 23 includes a flash memory, an SSD (Solid State Device), and / or a hard disk.
  • the storage unit 23 stores programs and data necessary for realizing various functions of the translation apparatus 1.
  • the control unit 20 includes, for example, a CPU or MPU that realizes a predetermined function in cooperation with software, and controls the overall operation of the translation apparatus 1.
  • the control unit 20 implements various functions by reading a predetermined program and data stored in the storage unit 23 and executing arithmetic processing.
  • the control unit 20 includes a level detection unit 21, a translation unit 22, and an output speech conversion unit 24 as a functional configuration.
  • the control unit 20 may be an electronic circuit designed exclusively for realizing a predetermined function. That is, the control unit 20 may include various processors such as a CPU, MPU, GPU, DSP, FPGA, or ASIC.
  • the translation unit 22 is an example of a processing unit.
  • the level detection unit 21 detects whether or not the input level of the input voice data input by the host or guest exceeds a predetermined threshold value.
  • the translation unit 22 performs translation processing in cooperation with the external speech recognition server 3, translation server 4, and speech synthesis server 5. Specifically, the translation unit 22 generates speech indicating the content of the translation result from speech data input via the microphones 10a and 10b in cooperation with the speech recognition server 3, the translation server 4, and the speech synthesis server 5. The process which produces
  • the output voice conversion unit 24 converts the voice synthesis data received from the voice synthesis server 5 via the network 2 into output voice data based on the voice input level detected by the level detection unit 21.
  • the communication unit 18 transmits various types of information to the external server from the translation apparatus 1 via the network 2 and receives various types of information from the external server under the control of the control unit 20.
  • the communication unit 18 includes a communication module and a communication circuit that perform communication according to a predetermined communication standard such as 3G, 4G, Wi-Fi, Bluetooth (registered trademark), and LAN.
  • FIG. 3A and FIG. 3B are diagrams showing the waveform of the audio signal indicated by the audio data input to the translation apparatus 1.
  • FIG. 3A shows a waveform of an audio signal indicated by audio data with respect to an audio having an appropriate input level, that is, a level equal to or lower than a predetermined allowable input level.
  • the waveform is not saturated and not distorted. In this case, the translation processing system can correctly recognize the voice data.
  • FIG. 3B shows a waveform of an audio signal indicated by audio data obtained when an audio having an excessive input level, that is, a level exceeding an allowable input level is input.
  • the audio processing system may erroneously recognize the waveform of the original audio signal.
  • the present disclosure provides a voice processing device capable of giving a notice to a guest or a host that voice data is being input with an excessive volume.
  • a voice processing device capable of giving a notice to a guest or a host that voice data is being input with an excessive volume.
  • FIG. 4 is a flowchart showing translation processing by translation apparatus 1 according to the present embodiment. Hereinafter, the translation process by the translation apparatus 1 will be described with reference to FIG.
  • the control unit 20 of the translation apparatus 1 detects pressing of the voice input button 14a or the voice input button 14b, the input voice data of the voice uttered by the speaker, that is, the host or the guest, is sent to the host microphone 10a or the guest 10b. (S101).
  • the control unit 20 transmits the input voice data to the voice recognition server 3 via the network 2.
  • the voice recognition server 3 receives the input voice data via the network 2, performs voice recognition processing based on the input voice data, and converts it into character string voice recognition data (S102).
  • the voice recognition data is text format data.
  • the control unit 20 of the translation apparatus 1 receives the speech recognition data from the speech recognition server 3 via the network 2 and transmits the received speech recognition data to the translation server 4.
  • the translation server 4 receives the speech recognition data via the network 2, translates the speech recognition data, and converts it into character string translation data (S103).
  • the translation data is text format data.
  • the control unit 20 of the translation apparatus 1 receives the translation data from the translation server 4 via the network 2 and transmits the received translation data to the speech synthesis server 5.
  • the speech synthesis server 5 receives the translation data via the network 2, performs speech synthesis based on the translation data, and converts it into speech synthesis data (S104).
  • the voice synthesis data is data for reproducing voice.
  • the control unit 20 of the translation apparatus 1 receives speech synthesis data from the speech synthesis server 5 via the network 2.
  • control unit 20 of the translation apparatus 1 generates output speech data from the speech synthesis data (S105).
  • the control unit 20 determines that the input level of the input voice is excessive, the control unit 20 generates output voice data by modulating the voice synthesis data so that the fact is transmitted to the speaker. Details of such output audio data creation processing will be described later.
  • control unit 20 of the translation apparatus 1 reproduces the output voice data and outputs a voice indicating the translation result from the speaker 12 (S106).
  • the translation device 1 translates the content of speech uttered in the first language into the second language, and outputs the translated result in speech.
  • step S105 in FIG. 4 details of the process (step S105 in FIG. 4) of creating output speech data from speech synthesis data in the above translation processing will be described.
  • FIG. 5A, FIG. 5B, and FIG. 5C are diagrams for explaining voice processing by the translation apparatus 1.
  • FIG. FIG. 5A shows a waveform of an audio signal indicated by input audio data.
  • FIG. 5B shows a waveform of a speech signal indicated by speech synthesis data converted from the input speech data of FIG. 5A.
  • FIG. 5C shows the waveform of the audio signal indicated by the output audio data converted from the audio synthesis data of FIG. 5B.
  • FIG. 6 is a flowchart showing processing for creating output speech data from speech synthesis data according to the present embodiment.
  • the level detection unit 21 of the control unit 20 performs an excessive period (first period) in which the input level of the voice indicated by the input voice data exceeds a predetermined level, and the start time of the input voice.
  • the process up to the start of the excessive period is detected (S201).
  • the level detection unit 21 detects the excessive periods Ta, Tb, Tc and the elapsed times ta, tb, tc until each excessive period.
  • the output voice conversion unit 24 of the control unit 20 amplifies the output level of the amplification period (second period) corresponding to the excessive period of the input voice data with respect to the voice synthesis data to generate output voice data ( S202).
  • the output voice conversion unit 24 has a length equal to the excessive period Ta from the time when the elapsed time ta has elapsed from the voice start time indicated by the voice synthesis data in the voice synthesis data of FIG. 5B.
  • the output sound level is amplified and the output sound data of FIG. 5C is created.
  • the output sound level is amplified during the periods Tbs and Tcs.
  • FIG. 7 is a diagram for explaining a known compressor process. As shown in FIG. 7, a portion of the audio signal 80A where the signal level exceeds a predetermined level is cut to generate an audio signal 80B. In the audio signal 80B, the portions of the waveforms 81 and 82 are cut. Then, the audio signal 80B from which the portion having a large amplitude is cut is amplified to a predetermined amplification level to generate an amplified audio signal 80C. In this way, the audio signal can be amplified.
  • the translation apparatus 1 increases the level of the amplification period corresponding to the excessive period exceeding the predetermined level in the output sound when the input voice has an excessive period exceeding the predetermined level. .
  • the speaker of the input speech i.e., the host or guest, can notice that the speech he / she has produced is excessive by listening to the speech with some increased levels.
  • the speaker of the input voice that is, the host or guest is expected to adjust the input level by moving away from the microphone 10b or 10a or reducing the volume so that the input level is appropriate. it can.
  • the translation apparatus 1 includes the guest-side microphone 10a, the host-side microphone 10b, the translation unit 22, the level detection unit 21, the output speech conversion unit 24, and the speaker 12.
  • the guest-side microphone 10a and the host-side microphone 10b receive a voice indicating the utterance content in the first language, and generate an input voice signal.
  • the translation unit 22 generates a first output audio signal that is an audio signal indicating a result of translating the utterance content indicated by the input audio signal into the utterance content of the second language.
  • the level detector 21 detects an excessive period in which the signal level is greater than a predetermined level in the input audio signal.
  • the output sound conversion unit 24 amplifies the signal level of the amplification period (second period) corresponding to the excessive period (first period) with an amplification level larger than the amplification level of the other period in the first output sound signal. Thus, a second output audio signal is generated.
  • the speaker 12 outputs sound based on the second output sound signal.
  • the length of the excessive period in the input audio signal matches the length of the amplification period in the second output audio signal, and in the input audio signal, from the start time of the input audio signal to the start time of the excessive period.
  • the length and the length of the second output audio signal from the start time of the second output audio signal to the amplification period coincide with each other.
  • the translation device 1 increases the level of the amplification period corresponding to the excessive period exceeding the predetermined level in the output voice when the input voice has an excessive period exceeding the predetermined level.
  • the speaker of the input speech i.e., the host or guest
  • the speaker of the input voice can notice that the speech he / she has produced is excessive by listening to the speech with some increased levels.
  • the speaker of the input voice that is, the host or guest is expected to adjust the input level by moving away from the microphone 10b or 10a or reducing the volume so that the input level is appropriate. it can.
  • Translation apparatus 1 amplifies the voice level in the output voice data for the same length of amplification period at the same start timing as the excessive period of input voice data.
  • the input audio data and the output audio data are not necessarily the same in overall length.
  • the relative positional relationship and length ratio of the excessive period with respect to the entire input voice period, and the relative positional relation and length ratio of the amplification period with respect to the entire output voice period are:
  • the amplification period is set to be equal. This makes it easy to recognize from the output sound which part of the entire input sound has an excessive input level.
  • the hardware configuration of the translation system of the present embodiment is the same as that of the first embodiment.
  • FIG. 8A, FIG. 8B, and FIG. 8C are diagrams showing waveforms of speech signals indicated by the input speech data, speech synthesis data, and output speech data that are processed by the translation apparatus 1 according to the second embodiment.
  • FIG. 9 is a flowchart showing output voice data generation processing in translation apparatus 1 of the second embodiment.
  • the level detection unit 21 of the control unit 20 of the translation apparatus 1 detects the duration of the input voice data (S301).
  • the level detection unit 21 of the control unit 20 detects the duration T of the input voice data.
  • the level detection unit 21 detects an excessive period in which the input level exceeds a predetermined level and an elapsed time until the start point of each excessive period for the input voice data (S302).
  • the level detector 21 detects the excessive periods Ta, Tb, Tc and the elapsed times ta, tb, tc until the start time of each excessive period.
  • the level detection unit 21 detects the duration of the speech synthesis data (S303). In the example of FIG. 8A, the level detector 21 detects the duration T ′ of the speech synthesis data.
  • the output voice conversion unit 24 of the control unit 20 performs the amplification periods Ta ′, Tb ′, Tc ′ and the elapsed times ta ′, tb ′, tc until the amplification periods for the voice synthesis data based on the following equation. 'Is calculated (S304).
  • the output voice conversion unit 24 of the control unit 20 amplifies the voice output level in the amplification period for the voice synthesis data and creates output voice data (S305).
  • the output speech level is amplified for the speech synthesis data of FIG. 8B during the amplification period Ta ′ after the elapse of time ta ′ from the start time of the output speech.
  • the time tc ′ has elapsed from the start time of the speech synthesis data during the amplification period Tb ′ after the time tb ′ has elapsed from the start time of the speech synthesis data.
  • the output audio level is amplified.
  • the output level is amplified in the amplification period of the output sound corresponding to the excessive period in the input sound.
  • the speaker can recognize from the output voice which part of the entire input voice has an excessive input level.
  • the translation apparatus 1 amplifies a part of the speech synthesis data after translation and outputs it from the speaker 12, thereby notifying the speaker that the speech data is being input at an excessive volume. Gave.
  • translation apparatus 1 of the present embodiment outputs a message from speaker 12 indicating that voice data is being input at an excessive volume when the speaker is inputting voice data. Thereby, the speaker is noticed that the voice data is being input at an excessive volume.
  • FIG. 10 is a block diagram showing a configuration of the translation system according to the present embodiment.
  • the control unit 20 further includes a warning unit 25 as compared with the control unit 20 in FIG. 1.
  • the warning unit 25 outputs a message to the effect that the voice data is being input with excessive voice via the speaker 12 when the speaker is inputting the voice data.
  • FIG. 11 is a flowchart showing the operation of the translation apparatus 1 according to the present embodiment.
  • the control unit 20 of the translation apparatus 1 inputs the voice input by the speaker via the guest side microphone 10a or the host side microphone 10b (S401).
  • the voice input button 14a when the voice input button 14a is pressed, the voice information input from the guest microphone 10a is input to the translation apparatus 1.
  • the voice input button 14 b is pressed, the voice input from the host microphone 10 b is input to the translation apparatus 1.
  • the control unit 20 detects the input level of the sound input from the microphone 10a or 10b (S402), and compares the detected input level with a predetermined threshold value (S403).
  • control unit 20 When the input level of the input voice exceeds a predetermined threshold (No in S403), the control unit 20 outputs a warning message to the effect that voice data is being input with an excessive volume from the speaker 12 ( S404).
  • the control unit 20 determines whether or not an operation for instructing the end of the voice input has been performed (S405).
  • the operation for instructing the end of the voice input is an operation of pressing the voice input button 14a when the voice is acquired from the guest microphone 10a, or when the voice is acquired from the host microphone 10b. This is an operation of pressing the voice input button 14b.
  • control unit 20 detects that an operation for instructing the end of the voice input has been performed (Yes in S405), the process ends.
  • control unit 20 returns to S401 and repeats the above processing.
  • the translation apparatus 1 can inform a speaker that voice data is being input with an excessive volume by using a voice message, and can be made aware of it.
  • control relating to the output of a voice message for alerting in the present embodiment may be applied to the translation apparatus of the first and second embodiments.
  • Translation apparatus 1 outputs a warning message from speaker 12 to give a notice to a speaker that voice data is being input at an excessive volume.
  • the translation apparatus 1 of the present embodiment displays voice alert messages on the display 14 to input voice data at an excessive volume to the speaker. Give notice about.
  • FIG. 13 is a flowchart showing the operation of translation apparatus 1 according to the present embodiment.
  • the sound processing apparatus 1 according to the present modification performs the processes of steps S403a, S403b, S404a, and S404b instead of the processes of steps S403 and S404 of FIG.
  • the control unit 20 of the translation apparatus 1 inputs speech (S401), detects the level of the input speech (S402), and then counts the number of times that the input level within the unit period exceeds the threshold (S403a). If it is determined that the number of times is equal to or less than the predetermined number (Yes in S403a), the control unit 20 does not display a warning message on the display 14 (S404a).
  • the control unit 20 displays a warning message on the display 14 (S404b).
  • a process is performed to determine whether or not the voice input has been completed (S405).
  • the alert message for example, as shown in FIG. 13, a message “Please leave the microphone!” Is displayed on the display 14.
  • the translation apparatus 1 can inform the speaker that the voice data is being input with an excessive volume by displaying the alert message, and can be made aware.
  • control related to the display of the alert message in the present embodiment may be applied to the translation apparatus of the above embodiment.
  • the translation apparatus 1 includes two microphones for the host and the guest, but may include only one microphone for both the host and guest.
  • the translation apparatus 1 cuts a portion exceeding a predetermined level, which has a small influence on the sound quality and volume of the speech synthesis data, in the process of amplifying the output level of the speech synthesis data, so as to obtain a predetermined amplification level.
  • a portion that affects the sound quality of the speech synthesis data may be removed.
  • the predetermined level for determining the excessive period in the voice indicated by the voice synthesis data is fixed, but the predetermined level may be changed according to the input level of the input voice data. For example, the larger the signal level, the larger the predetermined level. As a result, it is possible to obtain an effect of determining as an excessive period even when the signal level suddenly changes.
  • the translation apparatus 1 performs translation processing in cooperation with the external speech recognition server 3, the translation server 4, and the speech synthesis server 5, but the functions of each server need not necessarily be provided on the cloud. Absent.
  • the translation device 1 may implement at least one of the functions of the speech recognition server 3, the translation server 4, and the speech synthesis server 5.
  • the signal level in the amplification period of the voice signal indicated by the voice synthesis data is amplified, but the voice signal in the amplification period may be distorted without being amplified.
  • the first language is Japanese and the second language is English.
  • the combination of the first language and the second language is not limited to this.
  • the combination of the first language and the second language can be selected from multiple languages including Japanese, English, Chinese, Korean, Thai, Indonesian, Vietnamese, Spanish, French, Sri, etc. Two arbitrarily selected languages can be included.
  • the translation device is shown as an example of the speech processing device, but the speech processing device of the present disclosure is not limited to the translation device.
  • the technical idea disclosed in the above embodiment can be applied to any electronic device that inputs a sound signal via a sound input device such as a microphone and performs processing based on the input sound signal.
  • the present invention can be applied to an interactive conversation apparatus that is assumed to be used in a store or a hotel.
  • the output sound conversion unit (24) amplifies the signal level of the amplification period (second period) with an amplification level larger than the amplification level of the other period in the first output sound signal.
  • the signal of the second period may be converted into a sound signal that is not based on the input audio signal, such as a sound of an instrument, a sound of an animal, and a noise sound of an acoustic device. That is, the output sound conversion unit (24) may perform signal processing different from signal processing in the second period on the first output sound signal to generate the second output sound signal. .
  • the translation apparatus 1 can give an utterance to the speaker that the voice is being input with an excessive volume.
  • the present disclosure can be applied to any electronic device that inputs an audio signal via an audio input device such as a microphone and performs processing based on the input audio signal.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

音声処理装置(1)は、入力部(10a,10b)と、処理部(22)と、レベル検出部(21)と、出力音声変換部(24)と、出力部(12)と、を備える。入力部(10a,10b)は、音声を入力し、入力音声信号を生成する。処理部(22)は、入力音声信号に基づき第1の出力音声信号を生成する。レベル検出部(21)は、入力音声信号において信号レベルが所定レベルより大きい第1期間を検出する。出力音声変換部(24)は、第1の出力音声信号において、第1期間に対応する第2期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する。出力部(12)は、第2の出力音声信号に基づく音声を出力する。

Description

音声処理装置および翻訳装置
 本開示は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。
 特許文献1は、1つの言語による入力音声を、複数の言語による音声に翻訳することができるテレビシステムを開示している。テレビシステムは、入力音声信号を、音量、音調、および音色に分解する。テレビシステムは、分解した、音量、音調、および音色と融合させた、複数の言語による翻訳音声信号を出力する。
特開2014-21485号公報
 過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供する。
 本開示の音声処理装置は、入力部と、処理部と、レベル検出部と、出力音声変換部と、出力部と、を備える。入力部は、音声を入力し、入力音声信号を生成する。処理部は、入力音声信号に基づき第1の出力音声信号を生成する。レベル検出部は、入力音声信号において信号レベルが所定レベルより大きい第1期間を検出する。出力音声変換部は、第1の出力音声信号において、第1期間に対応する第2期間の信号レベルを、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する。出力部は、第2の出力音声信号に基づく音声を出力する。
 本開示によれば、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる音声処理装置を提供することができる。
翻訳装置の外観を示す図 翻訳システムの構成を示すブロック図 翻訳装置に入力される適正レベルの入力音声データが示す音声信号の波形を示す図 翻訳装置に入力される過大レベルの入力音声データが示す音声信号の波形を示す図 実施の形態1に係る翻訳装置による翻訳処理を示すフローチャート 実施の形態1に係る翻訳装置に入力される入力音声データが示す音声信号の波形を示す図 実施の形態1に係る翻訳装置において入力音声データから生成された音声合成データが示す音声信号の波形を示す図 実施の形態1に係る翻訳装置において音声合成データから生成された出力音声データが示す音声信号の波形を示す図 実施の形態1に係る翻訳装置における、音声合成データから出力音声データを作成する処理を示すフローチャート 音声合成データの出力レベルを増幅する処理を示す図 実施の形態2に係る翻訳装置に入力される音声合成データが示す音声信号の波形を示す図 実施の形態2に係る翻訳装置において入力音声データから生成された音声合成データが示す音声信号の波形を示す図 実施の形態2に係る翻訳装置において音声合成データから生成された出力音声データが示す音声信号の波形を示す図 実施の形態2に係る翻訳装置における、音声合成データから出力音声データを作成する処理を示すフローチャート 実施の形態3に係る翻訳システムの構成を示すブロック図 実施の形態3に係る翻訳装置における動作を示すフローチャート 実施の形態4に係る翻訳装置において、ディスプレイに注意喚起メッセージが表示されている状態を示す図 実施の形態4に係る翻訳装置の動作を示すフローチャート
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、発明者(ら)は、当業者が本開示を十分に理解するために添付図面および以下の説明を提供するのであって、これらによって特許請求の範囲に記載の主題を限定することを意図するものではない。以下の各実施の形態では、音声処理装置の実施の形態として、翻訳装置を説明する。
(実施の形態1)
1.構成
1-1.翻訳装置の概要
 図1は、実施の形態1に係る音声処理装置の一実施の形態である翻訳装置の外観を示す図である。図1に示す翻訳装置1は、第1の言語で話すホストと第2の言語で話すゲストとの間の会話を翻訳する装置である。翻訳装置1を介して、ホストおよびゲストは対面してそれぞれの言語で会話することができる。翻訳装置1は、第1の言語から第2の言語への翻訳と、第2の言語から第1の言語への翻訳とを行う。翻訳装置1は、翻訳結果を音声で出力する。ホストおよびゲストは、翻訳装置1から出力される音声により、発話している内容をお互いに把握することができる。例えば、第1の言語は日本語であり、第2の言語は英語である。
 翻訳装置1は、ゲスト側マイク10aと、ホスト側マイク10bと、スピーカ12と、ディスプレイ14と、タッチパネル15と、を備える。ゲスト側マイク10aおよびホスト側マイク10bは、入力部の一例である。スピーカ12は、出力部の一例である。
 ゲスト側マイク10aは、ゲストが発話した音声をデジタル音声信号である入力音声データに変換する。ホスト側マイク10bは、ホストが発話した音声をデジタル音声信号である入力音声データに変換する。すなわち、ゲスト側マイク10a及びホスト側マイク10bは、音声処理装置1に音声データを入力する音声入力部として機能する。
 ディスプレイ14は、ゲストまたはホストによる操作に基づいて、文字列や画像を表示する。ディスプレイ14は、液晶ディスプレイまたは有機ELディスプレイなどで構成される。
 タッチパネル15は、ディスプレイ14に重畳して配置されている。タッチパネル15は、ゲストまたはホストによるタッチ操作を受け付けることができる。
 スピーカ12は、音声を出力する装置であり、例えば、翻訳結果の内容を示す音声を出力する。
 図1において、翻訳装置1は、ディスプレイ14に、ゲスト側の音声入力ボタン14aとホスト側の音声入力ボタン14bとを表示している。翻訳装置1は、音声入力ボタン14a,14bの押下を、タッチパネル15を介して検出する。
 翻訳装置1は、ゲストによる音声入力ボタン14aの押下を検出すると、ゲスト側マイク10aから入力音声データの取得を開始する。翻訳装置1は、入力音声データの取得中に音声入力ボタン14aの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置1は、例えば、英語から日本語への翻訳処理を行って、日本語の出力音声データを、スピーカ12から出力する。
 また、翻訳装置1は、ホストによる音声入力ボタン14bの押下を検出すると、ホスト側マイク10bから入力音声データの取得を開始する。翻訳装置1は、入力音声データの取得中に音声入力ボタン14bの押下を再度検出すると、入力音声データの取得を終了する。翻訳装置1は、例えば、日本語から英語への翻訳処理を行って、英語の出力音声データを、スピーカ12から出力する。なお、翻訳装置1は、ゲスト側マイク10a及びホスト側マイク10bからの入力音声データの音量レベルが所定の閾値以下になったことを検出することにより、自動的に入力音声データの取得を終了してもよい。
1-2.翻訳システムの構成
 図2は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図2に示す翻訳システムは、図1の翻訳装置1に加えて、音声認識サーバ3と、翻訳サーバ4と、音声合成サーバ5とをさらに備える。
 音声認識サーバ3は、翻訳装置1からネットワーク2を介して入力音声データを受信し、入力音声データを音声認識して文字列の音声認識データを生成するサーバである。
 翻訳サーバ4は、翻訳装置1からネットワーク2を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データを生成するサーバである。本実施の形態において、翻訳サーバ4は、日本語の文字列を英語の文字列に、あるいは英語の文字列を日本語の文字列に翻訳する。
 音声合成サーバ5は、翻訳装置1からネットワーク2を介して文字列の翻訳データを受信し、翻訳データを音声合成して音声合成データを生成するサーバである。
1-3.翻訳装置の内部構成
 翻訳装置1は、記憶部23と、通信部18と、制御部20と、をさらに備える。
 記憶部23は、フラッシュメモリ、SSD(Solid State Device)および/またはハードディスク等で構成される。記憶部23は翻訳装置1の各種機能を実現するために必要なプログラムおよびデータを記憶する。
 制御部20は、例えばソフトウェアと協働して所定の機能を実現するCPUまたはMPU等を含み、翻訳装置1の全体動作を制御する。制御部20は、記憶部23に記憶された所定のプログラムおよびデータ等を読み込んで演算処理を実行することにより、種々の機能を実現する。例えば、制御部20は、機能的な構成として、レベル検出部21と、翻訳部22と、出力音声変換部24とを含む。制御部20は、所定の機能を実現するように専用に設計された電子回路でもよい。すなわち、制御部20は、CPU、MPU、GPU、DSP、FPGA、または、ASIC等、種々のプロセッサを含んでもよい。翻訳部22は、処理部の一例である。
 レベル検出部21は、ホストまたはゲストが入力した入力音声データの入力レベルが所定のしきい値を超えているか否かを検出する。
 翻訳部22は、外部の音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携しながら翻訳処理を実施する。具体的には、翻訳部22は、音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携して、マイク10a、10bを介して入力した音声データから、翻訳結果の内容を示す音声を生成するデータである音声合成データを生成する処理を行う。
 出力音声変換部24は、音声合成サーバ5からネットワーク2を介して受信した音声合成データを、レベル検出部21が検出した音声の入力レベルに基づいて、出力音声データに変換する。
 通信部18は、制御部20の制御によって、翻訳装置1からネットワーク2を介して外部のサーバに各種情報を送信したり、外部のサーバから各種情報を受信したりする。通信部18は、3G、4G、Wi-Fi、Bluetooth(登録商標)、LAN等の所定の通信規格で通信を行う通信モジュールや通信回路で構成される。
2.本開示が解決しようとする課題
 以上のように構成される翻訳処理システムにおいて、ゲストまたはホストが過大な音量で翻訳装置1に音声を入力した場合に、音声処理システムは、入力された音声を適切に翻訳できない場合がある。以下にこれを説明する。
 図3A、図3Bは、翻訳装置1に入力される音声データが示す音声信号の波形を示す図である。図3Aは、適正な入力レベル、すなわち、所定の許容入力レベル以下のレベルの音声に対する音声データが示す音声信号の波形を示す。図3Aの音声データでは、波形は飽和しておらず、歪んでいない。この場合、翻訳処理システムは音声データを正しく認識することができる。
 一方、図3Bは、過大な入力レベルで、すなわち、許容入力レベルを超えたレベルの音声が入力されたときに得られる音声データが示す音声信号の波形を示す。図3Bの音声データでは、波形が飽和して歪んでいるので、音声処理システムは本来の音声信号の波形を誤認識するおそれがある。
 上記の課題を鑑み、本開示は、ゲストまたはホストに対して、過大な音量で音声データを入力していることについて気づきを与えることができる音声処理装置を提供する。以下、本実施の形態に係る、翻訳装置1の動作について説明する。
3.動作
 翻訳装置1の動作について、図4~7を参照して説明する。図4は、本実施の形態に係る翻訳装置1による翻訳処理を示すフローチャートである。以下、図4を用いて、翻訳装置1による翻訳処理を説明する。
 最初に、翻訳装置1の制御部20が、音声入力ボタン14aまたは音声入力ボタン14bの押下を検出すると、発話者すなわちホストまたはゲストが発した音声の入力音声データをホスト側マイク10aまたはゲスト10bを介して取得する(S101)。
 その後、制御部20は入力音声データをネットワーク2を介して音声認識サーバ3に送信する。音声認識サーバ3は、ネットワーク2を介して入力音声データを受信し、入力音声データに基づき音声認識処理を行い、文字列の音声認識データに変換する(S102)。音声認識データはテキスト形式のデータである。翻訳装置1の制御部20は、ネットワーク2を介して、音声認識サーバ3から音声認識データを受信し、受信した音声認識データを翻訳サーバ4に送信する。
 翻訳サーバ4は、ネットワーク2を介して音声認識データを受信し、音声認識データを翻訳して文字列の翻訳データに変換する(S103)。翻訳データはテキスト形式のデータである。翻訳装置1の制御部20は、翻訳サーバ4からネットワーク2を介して翻訳データを受信し、受信した翻訳データを音声合成サーバ5に送信する。
 音声合成サーバ5は、ネットワーク2を介して翻訳データを受信し、翻訳データに基づき音声合成を行い音声合成データに変換する(S104)。音声合成データは音声を再生するためのデータである。翻訳装置1の制御部20は、音声合成サーバ5からネットワーク2を介して音声合成データを受信する。
 その後、翻訳装置1の制御部20は、音声合成データから出力音声データを生成する(S105)。特に、制御部20は、入力された音声の入力レベルが過大であると判断したときに、その事実が発話者に伝わるように音声合成データを変調して出力音声データを生成する。このような出力音声データの作成処理の詳細については、後述する。
 最後に、翻訳装置1の制御部20は、出力音声データを再生し、翻訳結果を示す音声をスピーカ12から出力させる(S106)。
 以上のようにして、翻訳装置1は、第1言語で発話された音声の内容を第2言語に翻訳し、翻訳した結果を音声で出力する。
 以下、上記の翻訳処理における、音声合成データから出力音声データを作成する処理(図4のステップS105)の詳細を説明する。
 図5A、図5B、図5Cは、翻訳装置1による音声処理を説明するための図である。図5Aは、入力音声データが示す音声信号の波形を示す。図5Bは、図5Aの入力音声データから変換された音声合成データが示す音声信号の波形を示す。図5Cは、図5Bの音声合成データから変換された出力音声データが示す音声信号の波形を示す。図6は、本実施の形態に係る、音声合成データから出力音声データを作成する処理を示すフローチャートである。
 図6において、最初に、制御部20のレベル検出部21は、入力音声データが示す音声の入力レベルが所定レベルを超える期間である過大期間(第1期間)と、入力音声の開始時点から各過大期間の開始時点までの経過とを検出する(S201)。図5Aの例では、レベル検出部21は、過大期間Ta,Tb,Tcと、各過大期間まで経過時間ta,tb,tcと、を検出する。
 次に、制御部20の出力音声変換部24は、音声合成データについて、入力音声データの過大期間に対応する増幅期間(第2期間)の出力レベルを増幅して、出力音声データを生成する(S202)。図5B、図5Cの例では、出力音声変換部24は、図5Bの音声合成データにおいて、音声合成データが示す音声の開始時点から経過時間taだけ経過した時点から過大期間Taと等しい長さの増幅期間Tasの間、出力音声レベルが増幅されて、図5Cの出力音声データが作成される。同様に、図5Cの出力音声データでは、図5Bの音声合成データについて、音声合成データが示す音声の開始時点から経過時間tb、tcだけ経過した時点から過大期間Tb、Tcと等しい長さの増幅期間Tbs、Tcsの間、その出力音声レベルが増幅されている。
 なお、音声合成データの出力レベルの増幅処理には既存の技術を用いることができる。例えば、公知のコンプレッサ処理技術を用いて実現することができる。図7は、公知のコンプレッサ処理を説明するための図である。図7に示すように、音声信号80Aにおいて信号レベルが所定レベルを超える部分をカットし、音声信号80Bを生成する。音声信号80Bでは、波形81、82の部分がカットされている。そして、振幅が大きい部分がカットされた音声信号80Bを所定の増幅レベルまで増幅して、増幅した音声信号80Cを生成する。このようにして、音声信号を増幅することができる。
 以上のように、本実施の形態の翻訳装置1は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク10bまたは10aから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。
4.まとめ
 以上説明したように、翻訳装置1は、ゲスト側マイク10aと、ホスト側マイク10bと、翻訳部22と、レベル検出部21と、出力音声変換部24と、スピーカ12と、を備える。ゲスト側マイク10aおよびホスト側マイク10bは、第1の言語での発話内容を示す音声を入力し、入力音声信号を生成する。翻訳部22は、入力音声信号が示す発話内容を第2の言語の発話内容に翻訳した結果を示す音声信号である第1の出力音声信号を生成する。レベル検出部21は、入力音声信号において信号レベルが所定レベルより大きい過大期間を検出する。出力音声変換部24は、第1の出力音声信号において、過大期間(第1期間)に対応する増幅期間(第2期間)の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第2の出力音声信号を生成する。スピーカ12は、第2の出力音声信号に基づく音声を出力する。
 このとき、入力音声信号における過大期間の長さと、第2の出力音声信号における増幅期間の長さとが一致し、かつ、入力音声信号において、入力音声信号の開始時点から過大期間の開始時点までの長さと、第2の出力音声信号において、第2の出力音声信号の開始時点から増幅期間までの長さとが一致する。
 このことにより、本実施の形態の翻訳装置1は、入力音声が、所定レベルを超える過大期間を有する場合に、出力音声において、所定レベルを超える過大期間に対応する増幅期間のレベルを増大させる。入力音声の発話者、すなわち、ホストまたはゲストは、一部のレベルが増大された音声を聴くことにより、自身の発した音声が過大であることに気づくことができる。その際に、入力音声の発話者、すなわち、ホストまたはゲストは、適切な入力レベルとなるように、マイク10bまたは10aから遠ざかったり、音量を小さくしたりして、入力レベルを調整することが期待できる。
(実施の形態2)
 実施の形態1の翻訳装置1は、出力音声データにおいて、入力音声データの過大期間と同じ開始タイミングで同じ長さの増幅期間だけ音声レベルを増幅した。入力音声データと出力音声データとは全体の長さは必ずしも同じでない。このため、実施の形態1のような増幅方法では、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識することが難しい。そこで、本実施の形態では、入力音声の全体期間に対する過大期間の相対的な位置関係及び長さの割合と、出力音声の全体期間に対する増幅期間の相対的な位置関係及び長さの割合とが等しくなるように増幅期間を設定する。これにより、入力音声全体におけるどの部分が入力レベルが過大であったのかを、出力音声から認識し易くすることができる。以下、本実施の形態の処理を具体的に説明する。なお、本実施の形態の翻訳システムのハードウェア構成は実施の形態1のものと同様である。
 図8A、図8B、図8Cは、実施の形態2に係る翻訳装置1が処理する入力音声データと音声合成データと出力音声データとが示す音声信号の波形を示した図である。図9は、実施の形態2の翻訳装置1における出力音声データの生成処理を示すフローチャートである。
 図9において、最初に、翻訳装置1の制御部20のレベル検出部21は、入力音声データの継続時間を検出する(S301)。図8Aの例では、制御部20のレベル検出部21は、入力音声データの継続時間Tを検出する。
 次に、レベル検出部21は、入力音声データについて、入力レベルが所定レベルを超える過大期間と、各過大期間の開始時点までの経過時間とを検出する(S302)。図8Aの例では、レベル検出部21は、過大期間Ta,Tb,Tcと各過大期間の開始時点までの経過時間ta,tb,tcとが検出される。
 次に、レベル検出部21は、音声合成データの継続時間を検出する(S303)。図8Aの例では、レベル検出部21は、音声合成データの継続時間T’が検出される。
 次に、制御部20の出力音声変換部24は、次式に基づいて、音声合成データについて、増幅期間Ta’,Tb’,Tc’および各増幅期間までの経過時間ta’,tb’,tc’を算出する(S304)。
Ta’=Ta×T’/T
Tb’=Tb×T’/T
Tc’=Tc×T’/T
ta’=ta×T’/T
tb’=tb×T’/T
tc’=tc×T’/T
 制御部20の出力音声変換部24は、音声合成データについて、増幅期間における音声出力レベルを増幅して、出力音声データを作成する(S305)。図8Cの例では、図8Bの音声合成データについて、出力音声の開始時点から時間ta’経過後の増幅期間Ta’の間、出力音声レベルが増幅される。同様に、図8Cの出力音声データでは、図8Bの音声合成データについて、音声合成データの開始時点から時間tb’経過後の増幅期間Tb’の間、音声合成データの開始時点から時間tc’経過後の増幅期間Tc’の間、出力音声レベルが増幅されている。
 以上のように制御することで、入力音声における過大期間と対応した、出力音声の増幅期間において出力レベルが増幅される。これにより、発話者は、入力音声全体におけるどの部分が入力レベルが過大であったのかを出力音声から認識することができる。
(実施の形態3)
 以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態1と同様である。
 実施の形態1の翻訳装置1は、翻訳後の音声合成データの一部を増幅してスピーカ12から出力することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置1は、発話者が音声データを入力しているときに、過大な音量で音声データを入力している旨のメッセージをスピーカ12から出力する。それにより、発話者に対して、過大な音量で音声データを入力していることについて気づきを与える。
 図10は、本実施の形態に係る翻訳システムの構成を示すブロック図である。図10の翻訳装置1において、制御部20は、図1の制御部20と比較して、警告部25をさらに備える。警告部25は、発話者が音声データを入力しているときに、過大な音声で音声データを入力している旨のメッセージを、スピーカ12を介して出力する。
 図11は、本実施の形態に係る翻訳装置1の動作を示すフローチャートである。
 音声入力ボタン14a,14bの押下を検出すると、翻訳装置1の制御部20は、発話者により入力された音声を、ゲスト側マイク10aまたはホスト側マイク10bを介して入力する(S401)。
 このとき、音声入力ボタン14aが押下された場合、ゲスト側マイク10aから入力された音声の情報が翻訳装置1に入力される。音声入力ボタン14bが押下された場合、ホスト側マイク10bから入力された音声が翻訳装置1に入力される。
 制御部20は、マイク10aまたは10bから入力した音声の入力レベルを検出し(S402)、検出した入力レベルと所定のしきい値とを比較する(S403)。
 入力された音声の入力レベルが所定のしきい値を上回る場合(S403においてNo)、制御部20は、過大な音量で音声データ入力している旨の注意喚起メッセージを、スピーカ12から出力する(S404)。
 一方、入力された音声の入力レベルが所定のしきい値以下である場合(S403においてYes)、制御部20は、音声入力の終了を指示する操作がなされたか否かを判断する(S405)。音声入力の終了を指示する操作とは、ゲスト側マイク10aから音声を取得しているときに、音声入力ボタン14aを押下する操作、または、ホスト側マイク10bから音声を取得しているときに、音声入力ボタン14bを押下する操作である。
 制御部20は、音声入力の終了を指示する操作がなされたことを検出した場合(S405においてYes)、本処理を終了する。音声入力の終了を指示する操作がなされたことを検出しない場合(S405においてNo)、制御部20は、S401に戻り、上記の処理を繰り返す。
 以上のように本実施の形態の翻訳装置1は、音声メッセージにより、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。
 なお、本実施の形態における注意喚起のための音声メッセージの出力に関する制御を実施の形態1、2の翻訳装置に適用してもよい。
(実施の形態4)
 以下、本開示の別の実施の形態について説明する。音声処理装置1および音声処理システムの構成は、実施の形態3と同様である。
 実施の形態3の翻訳装置1は、スピーカ12から注意喚起メッセージを出力することによって、発話者に過大な音量で音声データを入力していることについて気づきを与えた。これに対して、本実施の形態の翻訳装置1は、図12に示すように、注意喚起メッセージをディスプレイ14に表示することによって、発話者に、過大な音量で音声データを入力していることについて気づきを与える。
 図13は、本実施の形態に係る翻訳装置1の動作を示すフローチャートである。図12において、本変形例に係る、音声処理装置1は、図11のステップS403およびS404の処理に代えて、ステップS403a、S403b、S404aおよびS404bの処理を行う。
 翻訳装置1の制御部20は、音声を入力し(S401)、入力した音声のレベルを検出した(S402)後、単位期間内の入力レベルがしきい値を超える回数をカウントする(S403a)。当該回数が所定回数以下であると判断した場合(S403aにてYes)、制御部20は、ディスプレイ14に注意喚起メッセージを表示しない(S404a)。
 一方、単位期間内の入力レベルがしきい値を超える回数が所定回数を上回ると判断した場合(S403bにてNo)、制御部20は、注意喚起メッセージをディスプレイ14に表示する(S404b)。ステップS404aまたはS404bの後、音声入力が終了したかどうかの処理を行う(S405)。注意喚起メッセージとしては、例えば、図13に記載のように、ディスプレイ14に「マイクから離れてください!」というメッセージが表示される。
 以上のように本実施の形態の翻訳装置1は、注意喚起メッセージの表示により、過大な音量で音声データ入力している旨を発話者に伝えることができ、気づかせることができる。
 なお、本実施の形態における注意喚起メッセージの表示に関する制御を上記の実施の形態の翻訳装置に適用してもよい。
(他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施の形態にも適用可能である。また、上記実施の形態で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 上記の実施の形態では、翻訳装置1は、ホスト用とゲスト用として2つのマイクを備えたが、ホスト用とゲスト用を兼用した1つのマイクのみを備えてもよい。
 実施の形態1の翻訳装置1は、音声合成データの出力レベルを増幅する処理において、音声合成データの音質や音量への影響が少ない、所定のレベルを超える部分をカットして、所定の増幅レベルまで増幅したが、これに限定されない。例えば、音声合成データの音質に影響を与える部分を除去してもよい。
 上記の実施の形態において、音声合成データが示す音声における過大期間を判定するための所定レベルは固定であったが、当該所定レベルを、入力音声データの入力レベルに応じて変化させてもよい。例えば、信号レベルが大きいほど、所定レベルを大きく設定する。これにより、信号レベルの急激な変化のときも過大期間として判定するという効果を奏することができる。
 上記の実施の形態では、翻訳装置1は、外部の音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5と連携しながら翻訳処理を実施したが、各サーバの機能は必ずしもクラウド上に設ける必要はない。翻訳装置1は、音声認識サーバ3、翻訳サーバ4及び音声合成サーバ5の機能のうちの少なくとも1つを実装しても良い。
 実施の形態1、2では、音声合成データが示す音声信号の増幅期間の信号レベルを増幅したが、増幅期間における音声信号を増幅せずに歪ませても良い。
 上記の実施の形態では、第1の言語を日本語とし、第2の言語を英語としたが、第1の言語と第2の言語の組み合わせは、これに限定されない。第1の言語と第2の言語の組み合わせは、日本語、英語、中国語、韓国語、タイ語、インドネシア語、ベトナム語、スペイン語、フランス語、ミャンマー語等を含む複数の言語群の中から任意に選択された2つの言語を含むことができる。
 上記の実施の形態では、音声処理装置の一例として翻訳装置を示したが、本開示の音声処理装置は翻訳装置に限定されるものではない。上記の実施の形態に開示した技術思想は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。例えば、店舗やホテル等での利用が想定される対話型の会話装置に適用することができる。
 上記の実施の形態では、出力音声変換部(24)は、第1の出力音声信号において、増幅期間(第2期間)の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して第2の出力音声信号を生成したが、第2期間の信号を楽器の音、動物の鳴き声および音響機器のノイズ音など入力音声信号に基づかない音信号に変換してもよい。つまり、出力音声変換部(24)は、第1の出力音声信号において、第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成すればよい。これにより、翻訳装置1は、過大な音量で音声を入力していることについて、発話者に気づきを与えることができる。
 以上のように、本開示における技術の例示として、実施の形態を説明した。そのために、添付図面および詳細な説明を提供した。
 従って、添付図面および詳細な説明に記載された構成要素の中には、課題解決のために必須な構成要素だけでなく、上記技術を例示するために、課題解決のためには必須でない構成要素も含まれ得る。そのため、それらの必須ではない構成要素が添付図面や詳細な説明に記載されていることをもって、直ちに、それらの必須ではない構成要素が必須であるとの認定をするべきではない。
 また、上述の実施の形態は、本開示における技術を例示するためのものであるから、特許請求の範囲またはその均等の範囲において種々の変更、置き換え、付加、省略等を行うことができる。
 本開示は、マイクのような音声入力装置を介して音声信号を入力し、入力した音声信号に基づく処理を行う任意の電子機器に適用できる。

Claims (13)

  1.  音声を入力し、入力音声信号を生成する入力部と、
     前記入力音声信号に基づき第1の出力音声信号を生成する処理部と、
     前記入力音声信号において信号レベルが所定レベルより大きい第1期間を検出するレベル検出部と、
     前記第1の出力音声信号において、前記第1期間に対応する第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する出力音声変換部と、
     前記第2の出力音声信号に基づく音声を出力する出力部と、
    を備えた音声処理装置。
  2.  前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第2の出力音声信号を生成する
    請求項1に記載の音声処理装置。
  3.  前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号を前記入力音声信号に基づかない音信号に変換して前記第2の出力音声信号を生成する
    請求項1に記載の音声処理装置。
  4.  前記入力音声信号における前記第1期間の長さと、前記第2の出力音声信号における前記第2期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第1期間の開始時点までの長さと、前記第2の出力音声信号において、前記第2の出力音声信号の開始時点から前記第2期間の開始時点までの長さとが一致する
    請求項1から3のいずれかに記載の音声処理装置。
  5.  前記入力音声信号における全体の長さに対する前記第1期間の長さの比率と、前記第2の出力音声信号における全体の長さに対する前記第2期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第1期間の相対的な位置と、前記第2の出力音声信号の全体期間における前記第2期間の相対的な位置とが一致する
    請求項1から3のいずれかに記載の音声処理装置。
  6.  前記レベル検出部が前記第1期間を検出すると、過大な音量で音声が入力している旨の音声メッセージを、前記出力部から出力させる、警告部をさらに備える、請求項1から5のいずれかに記載の音声処理装置。
  7.  ディスプレイおよび警告部をさらに備え、
     前記レベル検出部はさらに、単位期間内の前記入力音声信号において信号レベルが所定レベルを超えた回数を求め、
     前記回数が所定回数を上回ると判断した場合、前記警告部は、入力部から離れて音声を入力すべき旨を、前記ディスプレイに、表示させる、
    請求項1から5のいずれかに記載の音声処理装置。
  8.  前記レベル検出部は、前記入力音声信号における信号レベルに応じて、前記所定レベルを変化させる、請求項1から7のいずれかに記載の音声処理装置。
  9.  第1の言語での発話内容を示す音声を入力し、入力音声信号を生成する入力部と、
     前記入力音声信号が示す発話内容を第2の言語の発話内容に翻訳した結果を示す音声信号である第1の出力音声信号を生成する翻訳部と、
     前記入力音声信号において信号レベルが所定レベルより大きい第1期間を検出するレベル検出部と、
     前記第1の出力音声信号において、前記第1期間に対応する第2期間の信号を、他の期間の信号処理と異なる信号処理を行って第2の出力音声信号を生成する出力音声変換部と、
     前記第2の出力音声信号に基づく音声を出力する出力部と、
    を備えた翻訳装置。
  10.  前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号レベルを、他の期間の増幅レベルよりも大きい増幅レベルで増幅して前記第2の出力音声信号を生成する
    請求項9に記載の翻訳装置。
  11.  前記出力音声変換部は、前記第1の出力音声信号において、前記第2期間の信号を前記入力音声信号に基づかない音信号に変換して前記第2の出力音声信号を生成する
    請求項1に記載の翻訳装置。
  12.  前記入力音声信号における前記第1期間の長さと、前記第2の出力音声信号における前記第2期間の長さとが一致し、かつ、前記入力音声信号において、前記入力音声信号の開始時点から前記第1期間の開始時点までの長さと、前記第2の出力音声信号において、前記第2の出力音声信号の開始時点から前記第2期間の開始時点までの長さとが一致する
    請求項10に記載の翻訳装置。
  13.  前記入力音声信号における全体の長さに対する前記第1期間の長さの比率と、前記第2の出力音声信号における全体の長さに対する前記第2期間の長さの比率とが一致し、かつ、前記入力音声信号の全期間における前記第1期間の相対的な位置と、前記第2の出力音声信号の全体期間における前記第2期間の相対的な位置とが一致する
    請求項10に記載の翻訳装置。
PCT/JP2018/044735 2018-06-08 2018-12-05 音声処理装置および翻訳装置 WO2019234952A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880093359.4A CN112119455A (zh) 2018-06-08 2018-12-05 声音处理装置以及翻译装置
US17/105,894 US20210082456A1 (en) 2018-06-08 2020-11-27 Speech processing apparatus and translation apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018110621A JP2019211737A (ja) 2018-06-08 2018-06-08 音声処理装置および翻訳装置
JP2018-110621 2018-06-08

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US17/105,894 Continuation US20210082456A1 (en) 2018-06-08 2020-11-27 Speech processing apparatus and translation apparatus

Publications (1)

Publication Number Publication Date
WO2019234952A1 true WO2019234952A1 (ja) 2019-12-12

Family

ID=68770120

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/044735 WO2019234952A1 (ja) 2018-06-08 2018-12-05 音声処理装置および翻訳装置

Country Status (4)

Country Link
US (1) US20210082456A1 (ja)
JP (1) JP2019211737A (ja)
CN (1) CN112119455A (ja)
WO (1) WO2019234952A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7334846B2 (ja) * 2020-02-28 2023-08-29 日本電信電話株式会社 通信伝送装置、音声障害検出方法、および、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
JPH11194797A (ja) * 1997-12-26 1999-07-21 Kyocera Corp 音声認識作動装置
JP3225918B2 (ja) * 1998-03-30 2001-11-05 日本電気株式会社 携帯端末装置
JP2000338986A (ja) * 1999-05-28 2000-12-08 Canon Inc 音声入力装置及びその制御方法及び記憶媒体
JP2005084253A (ja) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd 音響処理装置、方法、プログラム及び記憶媒体
JP2007053661A (ja) * 2005-08-19 2007-03-01 Sony Corp 音量調整装置、音量調整方法
JP4678773B2 (ja) * 2005-12-05 2011-04-27 Kddi株式会社 音声入力評価装置
JPWO2010131470A1 (ja) * 2009-05-14 2012-11-01 シャープ株式会社 ゲイン制御装置及びゲイン制御方法、音声出力装置
JP5017441B2 (ja) * 2010-10-28 2012-09-05 株式会社東芝 携帯型電子機器
JP2013117659A (ja) * 2011-12-05 2013-06-13 Seiko Epson Corp 音声処理装置及び音声処理装置の制御方法
JP2015060332A (ja) * 2013-09-18 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2008032834A (ja) * 2006-07-26 2008-02-14 Toshiba Corp 音声翻訳装置及びその方法
JP2010186126A (ja) * 2009-02-13 2010-08-26 Nec Corp 入力音声評価装置、入力音声の評価方法および評価プログラム

Also Published As

Publication number Publication date
CN112119455A (zh) 2020-12-22
US20210082456A1 (en) 2021-03-18
JP2019211737A (ja) 2019-12-12

Similar Documents

Publication Publication Date Title
JP4972645B2 (ja) サウンド及び手作業により転写されるテキストを同期させるシステム及び方法
JP2006504130A (ja) 音声に基づく装置制御
US20090222269A1 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
JP2017021125A (ja) 音声対話装置
JP6904357B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2007140200A (ja) 語学学習装置およびプログラム
US7031924B2 (en) Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
WO2016017229A1 (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
WO2019234952A1 (ja) 音声処理装置および翻訳装置
US8553855B2 (en) Conference support apparatus and conference support method
JP6832503B2 (ja) 情報提示方法、情報提示プログラム及び情報提示システム
JPH10326176A (ja) 音声対話制御方法
JP2010197858A (ja) 音声対話システム
JP2010128766A (ja) 情報処理装置、情報処理方法、プログラム及び記憶媒体
US10181312B2 (en) Acoustic system, communication device, and program
JP2011180416A (ja) 音声合成装置、音声合成方法およびカーナビゲーションシステム
JP6918471B2 (ja) 対話補助システムの制御方法、対話補助システム、及び、プログラム
CN107785020B (zh) 语音识别处理方法及装置
JP2009020353A (ja) 音響モデル処理装置およびプログラム
WO2024058147A1 (ja) 処理装置、出力装置及び処理システム
KR102001314B1 (ko) 노래방 녹음 음질 개선 장치 및 방법
US20230262283A1 (en) Transmission apparatus, communication method and program
JP5881579B2 (ja) 対話システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18921686

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18921686

Country of ref document: EP

Kind code of ref document: A1