WO2022254834A1 - 信号処理装置、信号処理方法およびプログラム - Google Patents

信号処理装置、信号処理方法およびプログラム Download PDF

Info

Publication number
WO2022254834A1
WO2022254834A1 PCT/JP2022/008288 JP2022008288W WO2022254834A1 WO 2022254834 A1 WO2022254834 A1 WO 2022254834A1 JP 2022008288 W JP2022008288 W JP 2022008288W WO 2022254834 A1 WO2022254834 A1 WO 2022254834A1
Authority
WO
WIPO (PCT)
Prior art keywords
vibration
signal
unit
signal processing
vibration sensor
Prior art date
Application number
PCT/JP2022/008288
Other languages
English (en)
French (fr)
Inventor
佑司 床爪
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202280037462.3A priority Critical patent/CN117356107A/zh
Priority to EP22815592.5A priority patent/EP4351165A1/en
Priority to DE112022002887.4T priority patent/DE112022002887T5/de
Publication of WO2022254834A1 publication Critical patent/WO2022254834A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1041Mechanical or electronic switches, or control elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/01Hearing devices using active noise cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/13Hearing devices using bone conduction transducers

Definitions

  • This technology relates to a signal processing device, a signal processing method, and a program.
  • Patent Document 1 proposes a technique of detecting a speaker's speech using an acceleration sensor in a voice communication system.
  • Patent Document 1 is applied to headphones equipped with an acceleration sensor to detect the speech of a person wearing the headphones.
  • the vibration of the housing of the headphone due to the output of the sound is transmitted to the acceleration sensor, and there is a possibility that the performance of detecting the utterance of the speaker is degraded.
  • the output music contains a human voice
  • the vibration of the housing due to the voice output from the speaker is transmitted to the acceleration sensor, resulting in a vibration pattern similar to when the wearer speaks to the acceleration sensor.
  • the utterance is erroneously detected as being uttered even though the utterer is not speaking.
  • the present technology has been devised in view of such problems, and includes a signal processing device, a signal processing method, and a program capable of detecting the wearer's speech even while the vibration reproduction device is outputting sound. intended to provide
  • a first technique operates in correspondence with a vibration reproduction device that includes a vibration reproduction unit that reproduces vibration and a vibration sensor that detects vibration, and vibrates based on a vibration sensor signal.
  • the signal processing device includes a processing unit that performs processing to make it difficult to detect speech in speech detection processing for detecting speech of a wearer of the reproducing device.
  • the second technique is executed in correspondence with a vibration reproducing device that includes a vibration reproducing unit that reproduces vibration and a vibration sensor that detects vibration, and based on the vibration sensor signal, the wearer of the vibration reproducing device
  • a vibration reproducing device that includes a vibration reproducing unit that reproduces vibration and a vibration sensor that detects vibration, and based on the vibration sensor signal, the wearer of the vibration reproducing device
  • speech detection processing for detecting speech this is a signal processing method that performs processing that makes it difficult for speech to be detected.
  • the third technique is executed in association with a vibration reproducing device that includes a vibration reproducing unit that reproduces vibration and a vibration sensor that detects vibration, and the wearer of the vibration reproducing device speaks based on the vibration sensor signal.
  • a vibration reproducing device that includes a vibration reproducing unit that reproduces vibration and a vibration sensor that detects vibration
  • the wearer of the vibration reproducing device speaks based on the vibration sensor signal. It is a program that causes a computer to execute a signal processing method that performs processing that makes it difficult to detect speech in speech detection processing that detects .
  • FIG. 1A is an external view showing the external configuration of the headphone 100
  • FIGS. 1B and 1C are sectional views showing the internal configuration of the headphone 100.
  • FIG. 1 is a block diagram showing the configuration of a signal processing device 200 according to a first embodiment
  • FIG. 4 is a flowchart showing processing of the signal processing device 200 in the first embodiment
  • FIG. 4 is an explanatory diagram of processing of the signal processing device 200 in the first embodiment
  • FIG. 3 is a block diagram showing the configuration of a signal processing device 200 according to a second embodiment
  • FIG. 9 is a flowchart showing processing of the signal processing device 200 in the second embodiment
  • FIG. 10 is an explanatory diagram of processing of the signal processing device 200 in the second embodiment
  • FIG. 10 is an explanatory diagram of notification;
  • FIG. 10 is an explanatory diagram of notification;
  • FIG. 11 is a block diagram showing the configuration of a signal processing device 200 according to a third embodiment;
  • FIG. 10 is a flowchart showing processing of the signal processing device 200 in the third embodiment;
  • FIG. 12 is a block diagram showing the configuration of a signal processing device 200 according to a fourth embodiment;
  • FIG. 10 is a flowchart showing processing of the signal processing device 200 in the fourth embodiment;
  • FIG. FIG. 12 is a block diagram showing the configuration of a signal processing device 200 according to a fifth embodiment;
  • FIG. FIG. 14 is a flow chart showing processing of the signal processing device 200 in the fifth embodiment;
  • FIG. FIG. 21 is a block diagram showing the configuration of a signal processing device 200 according to a sixth embodiment;
  • FIG. FIG. 12 is a flow chart showing processing of the signal processing device 200 in the sixth embodiment;
  • FIG. FIG. 4 is an explanatory diagram of an application example of the present technology;
  • First Embodiment> [1-1. Configuration of vibration reproducing device] [1-2. Configuration of Signal Processing Device 200] [1-3. Processing by signal processing device 200] ⁇ 2.
  • Second Embodiment> [2-1. Configuration of Signal Processing Device 200] [2-2. Processing by signal processing device 200] ⁇ 3.
  • Third Embodiment> [3-1. Configuration of Signal Processing Device 200] [3-2. Processing by signal processing device 200] ⁇ 4.
  • Fifth Embodiment> [5-1. Configuration of Signal Processing Device 200] [5-2. Processing by signal processing device 200] ⁇ 6.
  • Sixth Embodiment> [6-1. Configuration of Signal Processing Device 200] [6-2. Processing by signal processing device 200] ⁇ 7.
  • the vibration reproduction device can be either wearable or stationary, and wearable vibration reproduction devices include headphones, earphones, and neck speakers. Headphones include overhead headphones, neckband headphones, and the like, and earphones include inner-ear earphones, canal earphones, and the like. In addition, there are earphones called true wireless earphones, full wireless earphones, etc., which are completely independent wireless earphones. There are also wireless headphones and neck speakers. Note that the vibration reproducing device is not limited to a wireless type, and may be a wired connection type.
  • the headphone 100 includes a housing 110 , a substrate 120 , a vibration reproduction section 130 , a vibration sensor 140 and an earpiece 150 .
  • the headphone 100 is a so-called canal type wireless headphone. Note that the headphone 100 may also be referred to as an earphone.
  • the headphone 100 outputs a reproduction signal transmitted from an electronic device connected, synchronized, paired, or the like with the headphone 100 as sound.
  • the housing 110 functions as a housing section that houses the substrate 120, the vibration reproducing section 130, the vibration sensor 140, and the like.
  • the housing 110 is made of synthetic resin such as plastic.
  • the board 120 is a circuit board on which a processor, MCU (Micro Controller Unit), battery charging IC, etc. are provided.
  • a reproduction signal processing unit, a signal output unit 121, a signal processing device 200, a communication unit, etc. are realized by the processing of the processor. Illustrations of the reproduction signal processing unit and the communication unit are omitted.
  • the reproduced signal processing unit performs predetermined audio signal processing such as signal amplification processing and equalizing processing on the reproduced signal reproduced from the vibration reproducing unit 130 .
  • the signal output unit 121 outputs the reproduced signal processed by the reproduced signal processing unit to the vibration reproducing unit 130 .
  • the reproduced signal is, for example, an audio signal.
  • the reproduced signal may be an analog signal or a digital signal.
  • the sound output from the vibration reproduction unit 130 according to the reproduction signal may be music, or may be sound other than music or a human voice.
  • the signal processing device 200 performs signal processing according to the present technology. The configuration of the signal processing device 200 will be described later.
  • the communication unit communicates with the right headphone and terminal device via wireless communication.
  • Examples of communication methods include Bluetooth (registered trademark), NFC (Near Field Communication), and Wi-Fi, but any communication method may be used as long as communication is possible.
  • the vibration reproduction unit 130 reproduces vibration based on the reproduction signal.
  • the vibration reproduction unit 130 is, for example, a driver unit or a speaker that outputs an audio signal as a reproduction signal.
  • the vibration reproduced by the vibration reproduction unit 130 may be vibration due to music output, or may be vibration due to sound or voice output other than music.
  • the vibration reproduced by the vibration reproduction unit 130 may be vibration generated by outputting a noise canceling signal as a reproduction signal, or may be an audio signal to which the noise canceling signal is added. Vibration due to output may be used.
  • the vibration reproduced by the vibration reproduction unit 130 may be the vibration generated by the output of the external sound capturing signal as the reproduction signal, or the output of the audio signal to which the external sound capturing signal is added. Vibration is fine.
  • the vibration reproduction unit 130 is a driver unit that outputs an audio signal as a reproduction signal as sound.
  • the housing 110 vibrates when sound is output from the vibration reproduction unit 130, which is a driver unit, and the vibration sensor 140 senses the vibration.
  • the vibration sensor 140 senses the vibration of the housing 110.
  • the vibration sensor 140 is intended to sense the vibration of the housing 110 due to the wearer's speech and the vibration of the housing 110 due to the voice output from the vibration reproduction unit 130, and senses the vibration of the air. It is different from a microphone whose purpose is to The vibration sensor 140 senses the vibration of the housing 110, and the microphone senses the vibration of the air, so the medium of vibration is different. Therefore, in the present technology, the vibration sensor 140 does not include a microphone.
  • the vibration sensor 140 is, for example, an acceleration sensor. In this case, the vibration sensor 140 is configured to sense a change in the position of a member inside the sensor, and is different in configuration from a microphone.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • the vibration sensor 140 in addition to the acceleration sensor, a VPU (Voice Pick Up) sensor, a bone conduction sensor, or the like can be used.
  • the acceleration sensor may be a two-axis acceleration sensor or an acceleration sensor with two or more axes (for example, a three-axis acceleration sensor). In the case of an acceleration sensor with two or more axes, since vibrations in multiple directions can be measured, the vibrations of the vibration reproduction unit 130 can be sensed with higher accuracy.
  • vibration sensor 140 may be arranged parallel to the vibration plane of vibration reproduction unit 130.
  • vibration sensor 140C vibration sensor 140E, and vibration sensor 140F in FIG. This makes it possible to reduce the influence of the vibration reproducing section 130 .
  • the vibration sensor 140 may be arranged coaxially with the vibration plane of the vibration reproduction unit 130, as shown by the vibration sensor 140C and the vibration sensor 140D in FIG. 1C.
  • vibration sensor 140A vibration sensor 140B, vibration sensor 140E, and vibration sensor 140F in FIG. This makes it possible to make the vibration sensor 140 less susceptible to the influence of the vibration reproducer 130 .
  • vibration sensor 140A vibration sensor 140B, vibration sensor 140E, and vibration sensor 140F in FIG.
  • vibration sensor 140B vibration sensor 140B, vibration sensor 140E, and vibration sensor 140F in FIG.
  • the vibration sensor 140 may be arranged on the surface of the vibration reproduction unit 130, as shown by the vibration sensor 140D in FIG. 1C. As a result, the vibration of the vibration reproducer 130 can be sensed with higher accuracy.
  • the vibration sensor 140 may be arranged on the inner surface of the housing 110, as shown by the vibration sensor 140C in FIG. 1C. As a result, the transmission of the vibration reproduced from the vibration reproduction unit 130 to the vibration sensor 140 can be physically reduced. Furthermore, since the vibration can be sensed at a position closer to the wearer's skin, the sensing accuracy can be improved.
  • the earpiece 150 is provided on a tubular protrusion formed on the side of the housing 110 facing the ear of the wearer.
  • the earpiece 150 is called a canal type, for example, and is inserted deeply into the ear canal of the wearer.
  • the earpiece 150 is made of an elastic material such as rubber so as to have elasticity, and serves to keep the headphone 100 worn on the ear by closely contacting the inner surface of the ear canal of the wearer.
  • the earpiece 150 closes to the inner surface of the outer ear canal of the wearer, thereby blocking external noise to make it easier to listen to voice, and preventing voice from leaking to the outside.
  • the sound output from the vibration reproduction unit 130 is emitted from the sound emission hole in the earpiece 150 toward the wearer's outer ear canal. Accordingly, the wearer can listen to the sound reproduced from the headphones 100 .
  • the headphone 100 is configured as described above. Although the description has been made with reference to the left headphone, the right headphone may be configured as described above.
  • the signal processing device 200 is composed of a noise generating section 201 , a noise adding section 202 and a signal processing section 203 .
  • the noise generator 201 generates noise to be added to the vibration sensor signal output from the vibration sensor 140 to the signal processor 203 and outputs the noise to the noise adder 202 .
  • noise for example, white noise, narrowband noise, pink noise, or the like can be used.
  • the present technology is not limited to any kind of noise, and the type of noise is not limited as long as it is a signal different from the characteristics of the vibration to be detected. Also, different noises may be used depending on the reproduced signal. For example, when the sound output from the vibration reproduction unit 130 by the reproduction signal is a male voice (male vocal in the case of music) and a female voice (female vocal in the case of music), noise and so on.
  • the noise addition unit 202 performs processing for adding the noise generated by the noise generation unit 201 to the vibration sensor signal output from the vibration sensor 140 .
  • the noise adding unit 202 corresponds to the processing unit in the claims.
  • a noise addition unit 202 serving as a processing unit changes the vibration sensor signal so as to make it difficult for speech to be detected in speech detection processing by the signal processing unit 203 .
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal to which noise has been added by the noise adding unit 202 .
  • the signal processing unit 203 detects the vibration of the housing 110 caused by the wearer's speech from the vibration sensor signal by, for example, a neural network constructed using machine learning technology or a neural network constructed using deep learning technology. to detect the wearer's speech.
  • the signal processing unit 203 detects speech of the wearer, so it is not preferable to detect speech of people around the wearer. Speech is generally detected by a microphone provided in the headphone 100, but it is difficult with the microphone to distinguish whether the person speaking is the wearer or another person. In addition, a plurality of microphones are required in order to identify whether the person speaking is the wearer or another person.
  • a headband type headphone with a large housing can be provided with a plurality of microphones, but a canal type headphone with a small housing 110 is difficult to be provided with a plurality of microphones.
  • the wearer's speech is detected instead of other people's speech. Even if another person speaks, the vibration sensor 140 does not sense the vibration caused by the other person's utterance, or even if it senses a slight vibration, the other person's utterance is erroneously detected as the wearer's utterance. can be prevented.
  • the signal processing device 200 is configured as described above. Note that in any of the first to fourth embodiments, the signal processing device 200 may be configured as a single device, may operate in the headphones 100 as a vibration reproducing device, or may operate in conjunction with the headphones 100. It may operate in connected, synchronized, paired electronic equipment or the like. When the signal processing device 200 operates in such an electronic device or the like, the signal processing device 200 operates in correspondence with the headphones 100 . Moreover, the headphones 100 and the electronic device may be realized to have the functions of the signal processing device 200 by executing a program. When the signal processing device 200 is implemented by a program, the program may be installed in the headphones 100 or the electronic device in advance, or may be downloaded or distributed as a storage medium and installed by the user himself/herself. .
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • noise adding section 202 receives the vibration sensor signal in step S101.
  • step S ⁇ b>102 the noise generation unit 201 generates noise and outputs it to the noise addition unit 202 .
  • step S102 does not necessarily have to be performed after step S101, and may be performed before step S101, or step S101 and step S102 may be performed substantially at the same time.
  • step S ⁇ b>103 the noise addition unit 202 adds noise generated by the noise generation unit 201 to the vibration sensor signal, and outputs the noise-added vibration sensor signal to the signal processing unit 203 .
  • the addition of noise to the vibration sensor signal by the noise addition unit 202 is performed while the vibration sensor 140 senses the vibration of the housing 110 and the vibration sensor signal is input to the noise addition unit 202 .
  • step S104 the signal processing unit 203 performs speech detection processing based on the vibration sensor signal to which noise has been added by the noise addition unit 202.
  • the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • FIG. 4A is an example showing the transmission component of the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 to the vibration sensor 140 in terms of the relationship between time and sound pressure obtained from the vibration sensor signal. Since no noise is added to the vibration sensor signal in FIG. 4A, when the sound output from the vibration reproduction unit 130 includes a human voice, the vibration is generated even though the wearer is not speaking. Vibration patterns similar to those when the wearer speaks are input to the sensor 140 . In that case, the vibration sensor 140 senses the vibration of the housing 110 due to the voice in the voice output from the vibration reproduction unit 130, and the signal processing unit 203 may erroneously detect that the wearer has uttered. .
  • noise is added to the vibration sensor signal to prevent this erroneous detection.
  • the transmission component of the vibration of the housing 110 to the vibration sensor 140 becomes as shown in FIG. 4B and is masked by the noise.
  • the vibration sensor signal obtained when the vibration of the housing 110 due to the sound from the vibration reproduction unit 130 is sensed is the utterance of the wearer.
  • the vibration pattern is no longer similar to the vibration sensor signal when the vibration of the housing 110 is sensed.
  • the vibration sensor signal is made different from the vibration sensor signal obtained by sensing the vibration of the human voice, thereby preventing the signal processing unit 203 from erroneously detecting the wearer's utterance.
  • the signal processing unit 203 can detect the speech of the wearer based on even the noise-added vibration sensor signal.
  • the processing of the signal processing device 200 in the first embodiment is performed as described above.
  • Second Embodiment> [2-1. Configuration of Signal Processing Device 200] Next, the configuration of the signal processing device 200 according to the second embodiment will be described with reference to FIG. The configuration of the headphone 100 is similar to that of the first embodiment.
  • the signal processing device 200 is composed of a vibration calculator 204 , a noise generator 201 , a noise adder 202 and a signal processor 203 .
  • the vibration calculator 204 calculates the instantaneous magnitude of the reproduced signal for outputting the sound from the vibration reproducer 130 .
  • the vibration calculator 204 outputs the calculation result to the noise generator 201 .
  • the magnitude of the reproduced signal includes instantaneous magnitude, and "instantaneous" is, for example, in units of milliseconds, but the present technology is not limited thereto.
  • the magnitude of the reproduced signal may be the peak of the vibration within a predetermined time period or the average of the predetermined time period.
  • the vibration calculation unit 204 cuts out a time section of the reproduction signal reproduced by the vibration reproduction unit 130, and requires a filter such as a high-pass filter, a low-pass filter, or a band-pass filter. to determine the energy (root mean square value, etc.) of the subsequent reproduced signal.
  • a filter such as a high-pass filter, a low-pass filter, or a band-pass filter.
  • the noise generation unit 201 determines the magnitude of noise to be added to the vibration sensor signal based on the calculation result of the vibration calculation unit 204 and generates noise.
  • the noise generation unit 201 increases the noise generated when the magnitude of the reproduced signal is large, and reduces the generated noise when the magnitude of the reproduced signal is small, so that the instantaneous magnitude of the reproduced signal is proportional to the magnitude of the reproduced signal.
  • the magnitude of the noise changes over time according to the
  • the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 is transmitted to the vibration sensor 140 and recorded in the vibration sensor 140.
  • the magnitude of the noise generated by the noise generation unit 201 is should be set to 0.1A.
  • the magnitude of the noise added to the vibration sensor signal is temporally changed according to the instantaneous magnitude of the reproduction signal for outputting the sound from the vibration reproduction unit 130 .
  • white noise, narrowband noise, pink noise, or the like can be used as noise.
  • the type of noise is not limited as long as it is a signal different from the characteristics of the vibration to be detected, and the noise may be selectively used according to the reproduction signal.
  • the noise addition unit 202 adds noise generated by the noise generation unit 201 to the vibration sensor signal and outputs the result to the signal processing unit 203, as in the first embodiment.
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal to which noise has been added by the noise adding unit 202, as in the first embodiment.
  • the signal processing device 200 in the second embodiment is configured as described above.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • noise adding section 202 receives the vibration sensor signal in step S201.
  • the vibration calculation unit 204 receives the reproduction signal in step S202.
  • step S203 the vibration calculator 204 calculates the instantaneous magnitude of the reproduced signal.
  • the vibration calculator 204 outputs the calculation result to the noise generator 201 .
  • steps S202 and S203 do not necessarily have to be performed after step S201, and may be performed before step S201 or substantially simultaneously with step S201.
  • step S204 the noise generator 201 generates noise to be added to the vibration sensor signal based on the magnitude of the reproduced signal calculated by the vibration calculator 204, and outputs the noise to the noise adder 202.
  • step S ⁇ b>205 the noise adding unit 202 adds noise to the vibration sensor signal and outputs the noise-added vibration sensor signal to the signal processing unit 203 .
  • the addition of noise to the vibration sensor signal by the noise addition unit 202 is performed while the vibration sensor 140 senses the vibration generated by the sound output from the vibration reproduction unit 130 and the vibration sensor signal is input to the noise addition unit 202 .
  • step S206 the signal processing unit 203 performs speech detection processing based on the vibration sensor signal to which noise has been added by the noise addition unit 202. Speech detection processing is performed in the same manner as in the first embodiment.
  • the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • FIG. 7A is an example showing the transmission component of the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 to the vibration sensor 140 in terms of the relationship between time and sound pressure obtained from the vibration sensor signal.
  • noise is not added to the vibration sensor signal, so if the sound output from the vibration reproduction unit 130 includes a human voice, the vibration is generated even though the wearer is not speaking. Vibration patterns similar to those when the wearer speaks are input to the sensor 140 . In that case, the vibration sensor 140 senses the vibration of the housing 110 due to the voice in the voice output from the vibration reproduction unit 130, and the signal processing unit 203 may erroneously detect that the wearer has uttered. .
  • Adding noise to the vibration sensor signal also adds noise to the vibration sensor signal when the vibration of the housing 110 caused by the wearer's speech is sensed. As a result, the accuracy of detection of the wearer's speech by the signal processing unit 203 may decrease.
  • noise that is temporally changed according to the instantaneous magnitude of the reproduction signal for outputting sound from the vibration reproduction unit 130 is added.
  • the noise added to the vibration sensor signal increases as the vibration of the housing 110 increases.
  • the vibration is small, the noise added to the vibration sensor signal is also small, and the transmission component of the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 to the vibration sensor 140 is as shown in FIG. is masked with
  • the vibration sensor signal obtained by sensing the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 is The vibration pattern is no longer similar to the vibration sensor signal when the vibration of the housing 110 due to speech is sensed. Therefore, by setting the vibration sensor signal to be different from the vibration sensor signal obtained by sensing the vibration of the human voice, it is possible to prevent the wearer's utterance from being erroneously detected by the signal processing unit 203.
  • the noise added to the vibration sensor signal is changed temporally according to the instantaneous magnitude of the reproduced signal, and is the minimum necessary noise for masking the transmission component to the vibration sensor 140. Therefore, the vibration sensor signal is not masked. Therefore, it is possible to maximize the success rate of detecting the wearer's speech based on the vibration sensor signal.
  • the processing of the signal processing device 200 in the second embodiment is performed as described above.
  • the frequency characteristics of the noise to be added may be changed according to the frequency characteristics of the vibration reproduced from the vibration reproduction unit 130.
  • the noise may have a frequency characteristic that is inversely proportional to the frequency characteristic of the vibration reproduced by the vibration reproducing unit 130, so that the frequency characteristic of the vibration sensor signal after adding the noise becomes flat.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • speech detection is performed by the signal processing unit 203 after adding noise to the vibration sensor signal. If the volume of the wearer's utterance is sufficiently louder than the sound output from the vibration reproduction unit 130, even if the transmission component of the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 is masked with noise. Since the transmission component of the vibration of the housing 110 due to the wearer's voice is not masked by noise, the signal processing unit 203 can detect the wearer's utterance.
  • the first and second embodiments can be executed even when the reproduction signal for sound output from the vibration reproduction unit 130 and the vibration sensor signal are not strictly temporally synchronized. For example, when the clock of the reproduced signal and the clock of the vibration sensor signal are different, depending on the system configuration, it is difficult or even impossible to completely synchronize the reproduced signal and the vibration sensor signal. Embodiments are valid.
  • the vibration reproduced by the vibration reproduction unit 130 when the vibration reproduced by the vibration reproduction unit 130 is large, the noise added to the vibration sensor signal also becomes large and the vibration sensor signal is masked. Detection accuracy may decrease. This is because the relative volume of the wearer's voice to the volume of the voice output from the vibration reproduction unit 130 is small. Therefore, in such a case, the wearer needs to speak louder than the sound output from the vibration reproduction unit 130 .
  • a notification method there are a display of a message and an icon on a screen 301 shown in FIG. 8A, and lighting or blinking of an LED 302 shown in FIG. 8B.
  • the electronic device 300 may be a wearable device, a personal computer, a tablet terminal, a head-mounted display, a portable music player, or the like, in addition to the smartphone.
  • an input operation is prepared that allows the wearer to know the reason when the wearer's speech cannot be detected, and when the input operation is performed on the electronic device 300 or the headphones 100, the reason is given to the wearer. You may make it notify.
  • the signal processing device 200 is composed of a transfer component prediction unit 205 , a transfer component subtraction unit 206 and a signal processing unit 203 .
  • the transmission component prediction unit 205 predicts the transmission component of the vibration of the housing 110 due to the sound output from the vibration reproduction unit 130 to the vibration sensor 140. do. Transfer component prediction section 205 outputs the predicted transfer component to transfer component subtraction section 206 .
  • the transfer characteristic (impulse response) from the vibration reproducing unit 130 to the vibration sensor 140 is measured in advance (before shipment of a product including the signal processing device 200, etc.), and the vibration reproducing unit There is a method of convolving the transfer characteristics measured in advance with the reproduction signal output as sound from 130 .
  • the transfer characteristics may change depending on conditions such as the size and type of the reproduced signal, measure the transfer characteristics under multiple conditions in advance and select the appropriate transfer characteristics according to the conditions such as the size of the reproduced signal. You can also fold it by
  • the transfer characteristics may change depending on various conditions such as differences in the wearer, the size and material of the earpiece 150, and the contact state with the wearer's ear. In order to deal with this, the transfer characteristics may be measured while the wearer is using the headphones 100 . In the transmission specific measurement, when the wearer issues a measurement start instruction at an intended timing, the vibration reproducing unit 130 reproduces a prescribed signal such as a sweep signal, and the signal of the vibration sensor 140 at that time is used as the basis. may be required for the transfer characteristic.
  • the transfer component subtraction unit 206 subtracts the signals from each other on a sample basis. must be in perfect synchronization. If the original sampling frequency of the reproduction signal reproduced by the vibration reproduction unit 130 is different from the sampling frequency of the vibration sensor signal, the above prediction method may be performed after performing the sampling frequency conversion. Also, if the reproduction signal and the vibration sensor signal are time-shifted due to software processing, appropriate synchronization correction processing may be performed. Also, a common clock may be used to synchronize the reproduction signal with the vibration sensor signal. Alternatively, a delay circuit may be used to synchronize the clocks and sampling rates of the vibration sensor 140 and the vibration reproducer 130 .
  • the transmission component subtraction unit 206 subtracts the transmission component predicted by the transmission component prediction unit 205 from the vibration sensor signal, and outputs the vibration sensor signal after subtraction processing to the signal processing unit 203 .
  • the transfer component subtraction unit 206 corresponds to the processing unit in the claims.
  • the transfer component subtraction unit 206 which is a processing unit, changes the vibration sensor signal so that the speech detection process by the signal processing unit 203 makes it difficult for the speech to be detected.
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal subjected to subtraction processing by the transmission component subtraction unit 206 .
  • the speech detection method is the same as in the first embodiment.
  • the signal processing device 200 in the third embodiment is configured as described above.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • transmission component subtraction section 206 receives the vibration sensor signal in step S301.
  • the transfer component prediction unit 205 receives the reproduced signal in step S302.
  • step S303 the transfer component prediction unit 205 predicts the transfer component based on the reproduced signal, and outputs the prediction result to the transfer component subtraction unit 206.
  • steps S302 and S303 do not necessarily have to be performed after step S301, and may be performed before step S301 or substantially simultaneously.
  • step S ⁇ b>304 the transfer component subtraction unit 206 subtracts the predicted transfer component from the vibration sensor signal and outputs the vibration sensor signal after subtraction to the signal processing unit 203 .
  • the subtraction of the predicted transfer component from the vibration sensor signal by the transfer component subtraction unit 206 is performed while the vibration sensor 140 senses the vibration generated by the vibration reproduction unit 130 and the vibration sensor signal is input to the noise addition unit 202 .
  • step 305 the signal processing unit 203 performs speech detection processing based on the vibration sensor signal subjected to the subtraction processing. Speech detection processing is performed in the same manner as in the first embodiment.
  • the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • the processing of the signal processing device 200 in the third embodiment is performed as described above.
  • the vibration of the housing 110 due to the sound output from the vibration reproducer 130 predicts the transfer component, which is the influence of the vibration of the housing 110 on the vibration sensor signal, and subtracts it from the vibration sensor signal. It is possible to prevent deterioration of speech detection performance due to vibration reproduced at 130 .
  • the signal processing device 200 is composed of a vibration calculation section 204 , a signal processing control section 207 and a signal processing section 203 .
  • the vibration calculator 204 calculates the instantaneous magnitude of the reproduction signal for outputting the sound from the vibration reproducer 130, as in the second embodiment.
  • the vibration calculator 204 outputs the calculation result to the signal processing controller 207 .
  • the magnitude of the reproduced signal includes instantaneous magnitude, and "instantaneous" is, for example, in units of milliseconds, but the present technology is not limited thereto.
  • the magnitude of the reproduced signal may be the peak of the vibration within a predetermined time period or the average of the predetermined time period.
  • the signal processing control unit 207 performs control to switch the operation of the signal processing unit 203 on and off based on the calculation result of the vibration calculation unit 204 .
  • the signal processing control unit 207 performs processing to turn off the operation of the signal processing unit 203, thereby making it difficult to detect speech.
  • the signal processing control unit 207 controls the signal processing unit 203 so that the signal processing unit 203 does not perform signal processing when the magnitude of the reproduced signal calculated by the vibration calculation unit 204 is equal to or greater than a preset threshold value th2. Outputs a control signal to turn off.
  • the signal processing control unit 207 corresponds to the processing unit in the claims.
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal.
  • the speech detection method is the same as in the first embodiment.
  • the signal processing unit 203 operates only when it receives a control signal for turning on the signal processing unit 203 from the signal processing control unit 207 .
  • the signal processing device 200 in the fourth embodiment is configured as described above.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • signal processor 203 receives the vibration sensor signal in step S401.
  • step S402 the vibration calculation unit 204 receives the reproduction signal output from the signal output unit 121.
  • step S403 the vibration calculator 204 calculates the instantaneous magnitude of the reproduced signal.
  • the vibration calculator 204 outputs the calculation result to the signal processor 203 .
  • step S403 does not necessarily have to be performed after steps S401 and S402, and may be performed before steps S401 and S402, or may be performed substantially at the same time.
  • step S404 the signal processing control unit 207 compares the magnitude of the reproduced signal with the threshold th2, and if the magnitude of the reproduced signal is not equal to or greater than the threshold th2, the process proceeds to step S405 (No in step S404).
  • step S405 the signal processing control unit 207 outputs a control signal for turning on the signal processing unit 203 so that the signal processing unit 203 executes speech detection processing.
  • step S406 the signal processing unit 203 performs speech detection processing.
  • the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • step S404 if the magnitude of the reproduced signal is equal to or greater than the threshold th2, the process proceeds to step S407 (Yes in step S404).
  • step S407 the signal processing control unit 207 outputs a control signal for turning off the signal processing unit 203 so that the signal processing unit 203 does not execute speech detection processing. Accordingly, the signal processing unit 203 does not perform speech detection processing.
  • the processing in the fourth embodiment is performed as described above. According to the fourth embodiment, when the magnitude of the reproduced signal is equal to or greater than the threshold th2, signal processing is not performed by the signal processing unit 203, so that signal processing does not adversely affect the wearer. can be made
  • the signal processing device 200 is composed of a vibration calculation section 204 , a gain calculation section 208 , a gain addition section 209 and a signal processing section 203 .
  • the vibration calculator 204 calculates the instantaneous magnitude of the reproduction signal for outputting the sound from the vibration reproducer 130, as in the second embodiment.
  • the vibration calculator 204 outputs the calculation result to the gain calculator 208 .
  • the magnitude of the reproduced signal includes instantaneous magnitude, and "instantaneous" is, for example, in units of milliseconds, but the present technology is not limited thereto.
  • the magnitude of the reproduced signal may be the peak of the vibration within a predetermined time period or the average of the predetermined time period.
  • the gain calculation unit 208 calculates a gain (below 0 dB) so that the vibration sensor signal is suppressed when the magnitude of the reproduced signal calculated by the vibration calculation unit 204 is equal to or greater than a preset threshold th3. gain), and outputs the calculation result to gain adding section 209 .
  • the gain addition unit 209 multiplies the vibration sensor signal by the gain based on the calculation result of the gain calculation unit 208 . This suppresses the vibration sensor signal.
  • the gain adding section 209 corresponds to the processing section in the claims.
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal multiplied by the gain by the gain adding unit 209 . Speech detection processing is performed in the same manner as in the first embodiment. When the wearer's speech is detected, the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • the signal processing device 200 in the fifth embodiment is configured as described above.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • gain adding section 209 receives the vibration sensor signal in step S501.
  • the vibration calculation unit 204 receives the reproduction signal in step S502.
  • step S503 the vibration calculator 204 calculates the instantaneous magnitude of the reproduced signal.
  • the vibration calculator 204 outputs the calculation result to the gain calculator 208 .
  • steps S502 and S503 do not necessarily have to be performed after step S501, and may be performed before step S501 or substantially simultaneously with step S501.
  • step S504 if the magnitude of the reproduced signal calculated by the vibration calculation unit 204 is equal to or greater than a preset threshold th3, the gain calculation unit 208 adjusts the gain so that the vibration sensor signal is suppressed. Calculation is performed, and the calculation result is output to gain adding section 209 .
  • step S ⁇ b>505 the gain addition unit 209 multiplies the vibration sensor signal by the gain, and outputs the multiplied vibration sensor signal to the signal processing unit 203 .
  • the gain addition unit 209 performs a process in which the vibration sensor 140 senses the vibration generated by the sound output from the vibration reproduction unit 130, and the vibration sensor signal is multiplied by a gain while the vibration sensor signal is being input to the noise addition unit 202. .
  • step S506 the signal processing unit 203 performs speech detection processing based on the vibration sensor signal multiplied by the gain by the gain addition unit 209. Speech detection processing is performed in the same manner as in the first embodiment.
  • the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • the signal processing unit 203 performs speech detection processing based on the vibration sensor signal suppressed by multiplying the vibration sensor signal by a gain. It is possible to suppress erroneous detection that it is an utterance of
  • the amount of gain applied to the vibration sensor signal by the gain addition section 209 can be reduced as the magnitude of the reproduced signal calculated by the vibration calculation section 204 increases. Also, if the magnitude of the reproduced signal calculated by the vibration calculator 204 is smaller than a predetermined value, the gain may be returned to the initial value (0 dB).
  • the signal processing device 200 is composed of a vibration calculator 204 and a signal processor 203 .
  • the vibration calculator 204 calculates the instantaneous magnitude of the reproduction signal for outputting the sound from the vibration reproducer 130, as in the second embodiment.
  • the vibration calculator 204 outputs the calculation result to the gain calculator 208 .
  • the magnitude of the reproduced signal includes instantaneous magnitude, and "instantaneous" is, for example, in units of milliseconds, but the present technology is not limited thereto.
  • the magnitude of the reproduced signal may be the peak of the vibration within a predetermined time period or the average of the predetermined time period.
  • the signal processing unit 203 detects the wearer's speech based on the vibration sensor signal.
  • the signal processing unit 203 corresponds to the processing unit in the claims.
  • the signal processing device 200 in the sixth embodiment is configured as described above.
  • the vibration sensor 140 senses the vibration of the housing 110 and outputs a vibration sensor signal obtained as a result of the sensing to the signal processing device 200 .
  • signal processor 203 receives the vibration sensor signal in step S601.
  • the vibration calculation unit 204 receives the reproduction signal in step S602.
  • step S603 the vibration calculator 204 calculates the instantaneous magnitude of the reproduced signal.
  • the vibration calculator 204 outputs the calculation result to the signal processor 203 .
  • steps S602 and S603 do not necessarily have to be performed after step S601, and may be performed before step S601 or substantially simultaneously with step S601.
  • step S604 the signal processing unit 203 performs speech detection processing based on the vibration sensor signal. Speech detection processing is performed in the same manner as in the first embodiment. When the wearer's speech is detected, the signal processing unit 203 outputs information indicating the detection result to an external processing unit or the like.
  • the possibility of human voice being included in the vibration sensor signal is calculated using a neural network or the like, and parameters from 0 to 1 are generated.
  • 0 corresponds to 0% probability that human voice is included
  • 1 corresponds to 100%.
  • the signal processing unit 203 compares this parameter with a predetermined threshold th4, and if the parameter is equal to or greater than the threshold th4, determines that the wearer has spoken, and outputs a detection result to that effect. On the other hand, if the parameter is not equal to or greater than the threshold th4, it is determined that the wearer is not speaking, and a detection result to that effect is output.
  • the signal processing unit 203 increases the threshold th4 by a predetermined amount (brings it closer to 1), thereby It is possible to make it difficult to detect a person's utterance.
  • the threshold th4 may be returned to the initial value.
  • a threshold value for determining that the wearer has spoken is set by comparing with the parameters to make it difficult to detect the wearer's speech. , it is possible to suppress erroneous detection.
  • the signal processing unit 203 of the first to fourth embodiments described above detects the wearer's speech, it outputs the detection result to the external processing unit 400 outside the signal processing device 200 as shown in FIG. Then, the speech detection result can be applied to various processes in the external processing unit 400 .
  • the external processing unit 400 receives from the signal processing device 200 the detection result that the wearer speaks while the wearer wears the headphones 100 and listens to the sound (such as music) output from the vibration reproducing unit 130. , the process of stopping the sound output by the vibration reproduction unit 130 is performed. Stopping the sound output from the vibration reproduction unit 130 is, for example, by generating a control signal that instructs the electronic device that outputs the reproduction signal to stop outputting the reproduction signal, and sending the control signal through the communication unit. It can be done by transmitting to an electronic device.
  • the wearer By detecting that the wearer who wears the headphones 100 and listens to the voice speaks and stops the voice output from the vibration reproduction unit 130, the wearer can take off the headphones 100 in order to have a conversation with a person. , there is no need to stop the audio output by operating the electronic device that is outputting the playback signal.
  • the processing performed by the external processing unit 400 is not limited to the processing of stopping the sound output from the vibration reproduction unit 130.
  • Other processing includes, for example, processing for switching the operation mode of the headphones 100 .
  • the headphone 100 has a so-called external sound capturing mode in which the microphone and the sound captured by the microphone are output from the vibration reproduction unit 130 to make it easier for the wearer to hear, This is processing for switching the operation mode of the headphone 100 to the external sound capturing mode.
  • the wearer can comfortably talk with people without taking off the headphones 100. This is useful, for example, when the wearer talks with family or friends, orally places an order at a restaurant, or talks with a CA (cabin attendant) on an airplane.
  • CA cabin attendant
  • the operating mode of the headphones before switching to the ambient sound capturing mode may be the normal mode or the noise canceling mode.
  • the external processing unit 400 may perform both the process of stopping the sound output from the vibration reproduction unit 130 and the process of switching the operation mode of the headphones 100 .
  • the processing unit for stopping the sound output from the vibration reproducing unit 130 and the processing unit for switching the operation mode of the headphone 100 may be separate processing units.
  • the external processing unit 400 may be realized by processing by a processor provided on the board 120 inside the headphone 100, or may be realized by processing of an electronic device connected, synchronized, paired, etc. with the headphone 100. Alternatively, the external processing unit 400 may be provided in the signal processing device 200 .
  • a vibration reproducing device including the vibration reproducing unit 130 and the vibration sensor 140 may be an earphone or a head-mounted display.
  • the "signal processing using the vibration sensor signal" performed by the signal processing unit 203 may be, for example, detection processing of specific vibrations such as speech, walking, tapping, and pulse of the wearer.
  • the vibration of the housing 110 due to the sound reproduced from the vibration reproduction unit 130 is not sensed by the vibration sensor 140, or even if it is sensed, the vibration is small. Therefore, noise may not be added to the vibration sensor signal so that signal processing will not be performed erroneously.
  • the headphone 100 may include two or more vibration reproducing units 130 and two or more vibration sensors 140, respectively.
  • the noise to be added to the vibration sensor signal output from each vibration sensor 140 is determined based on the vibration reproduced from each vibration reproduction unit 130. do.
  • processing is performed using the transfer characteristics from each vibration reproduction unit 130 to each vibration sensor 140 .
  • the present technology can also take the following configuration.
  • a vibration reproduction device including a vibration reproduction unit that reproduces vibrations and a vibration sensor that senses vibrations
  • a signal processing device comprising a processing unit that performs processing to make detection of speech difficult in speech detection processing for detecting speech of a wearer of the vibration reproduction device based on the vibration sensor signal.
  • the processing unit performs the processing based on a reproduction signal for reproducing vibration from the vibration reproduction unit.
  • the signal processing device is a transmission component subtraction unit that subtracts, from the vibration sensor signal, a transmission component of the vibration reproduced by the vibration reproduction unit to the vibration sensor.
  • the signal according to (7) further comprising a transfer component prediction unit that predicts the transfer component based on a reproduction signal for reproducing vibration from the vibration reproduction unit and outputs the predicted transfer component to the transfer component subtraction unit. processing equipment.
  • the signal processing device is a signal processing control unit that controls on/off of the speech detection processing.
  • the signal processing device controls to turn off the speech detection processing when the magnitude of the reproduced signal is equal to or greater than a predetermined threshold.
  • the signal processing device (11) The signal processing device according to (9), wherein the signal processing control unit controls to turn on the speech detection processing when the magnitude of the reproduced signal is not equal to or greater than a predetermined threshold. (12) The signal processing device according to (3), wherein the processing unit is a gain adding unit that multiplies the vibration sensor signal by a gain for suppressing the vibration sensor signal. (13) The signal processing device according to (2), wherein the processing unit adjusts a threshold for determining that the wearer's utterance has been detected based on the magnitude of the reproduced signal. (14) The signal processing device (15) according to any one of (1) to (13), which operates in the vibration reproducing device including the vibration reproducing section and the vibration sensor.
  • the signal processing device according to any one of (1) to (14), wherein the vibration reproduction device is a headphone.
  • the vibration sensor is an acceleration sensor.
  • the reproduction signal is an audio signal, and the vibration reproduction unit reproduces vibration by outputting audio.
  • Reference Signs List 100 Vibration reproducer 130 Vibration reproducer 140 Noise adder 200
  • Signal processor 202
  • Vibration sensor 203
  • Signal processor 205
  • Transfer component predictor 206
  • transfer component subtraction section 207
  • signal processing control section 209 ... gain addition section

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

振動再生装置から音声が出力されている状態であっても装着者の発話を検出することができる信号処理装置、信号処理方法およびプログラムを提供する。 振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して動作し、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部を備える信号処理装置。

Description

信号処理装置、信号処理方法およびプログラム
 本技術は、信号処理装置、信号処理方法およびプログラムに関する。
 従来から発話者の発話を検出する技術が提案されている。例えば、音声通信システムにおいて加速度センサを用いて発話者の発話を検出する技術がある(特許文献1)。
特開2011-188462号公報
 この特許文献1の技術を、加速度センサを備えるヘッドホンに適用してヘッドホンを装着した者の発話を検出する場合を考える。ヘッドホンのスピーカから大音量の音声が出力されると、音声の出力によるヘッドホンの筐体の振動が加速度センサへと伝達し、発話者の発話の検出の性能が低下するおそれがある。例えば、出力する音楽に人の声が含まれていると、スピーカからの音声の出力による筐体の振動が加速度センサへと伝達した結果、加速度センサに装着者が発話したときと似た振動パターンが入ることになり、発話者が発話していないにもかかわらず発話していると誤検出してしまう、といったことが考えられる。
 本技術はこのような問題点に鑑みなされたものであり、振動再生装置から音声が出力されている状態であっても装着者の発話を検出することができる信号処理装置、信号処理方法およびプログラムを提供することを目的とする。
 上述した課題を解決するために、第1の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して動作し、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部を備える信号処理装置である。
 また、第2の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して実行され、振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う信号処理方法である。
 さらに、第3の技術は、振動を再生する振動再生部と、振動を検出する振動センサとを備える振動再生装置と対応して実行され、振動センサ信号に基づいて振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う信号処理方法をコンピュータに実行させるプログラムである。
図1Aはヘッドホン100の外観構成を示す外観図、図1Bおよび図1Cはヘッドホン100の内部構成を示す断面図である。 第1の実施の形態における信号処理装置200の構成を示すブロック図である。 第1の実施の形態における信号処理装置200の処理を示すフローチャートである。 第1の実施の形態における信号処理装置200の処理の説明図である。 第2の実施の形態における信号処理装置200の構成を示すブロック図である。 第2の実施の形態における信号処理装置200の処理を示すフローチャートである。 第2の実施の形態における信号処理装置200の処理の説明図である。 通知の説明図である。 第3の実施の形態における信号処理装置200の構成を示すブロック図である。 第3の実施の形態における信号処理装置200の処理を示すフローチャートである。 第4の実施の形態における信号処理装置200の構成を示すブロック図である。 第4の実施の形態における信号処理装置200の処理を示すフローチャートである。 第5の実施の形態における信号処理装置200の構成を示すブロック図である。 第5の実施の形態における信号処理装置200の処理を示すフローチャートである。 第6の実施の形態における信号処理装置200の構成を示すブロック図である。 第6の実施の形態における信号処理装置200の処理を示すフローチャートである。 本技術の応用例の説明図である。
 以下、本技術の実施の形態について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<1.第1の実施の形態>
[1-1.振動再生装置の構成]
[1-2.信号処理装置200の構成]
[1-3.信号処理装置200による処理]
<2.第2の実施の形態>
[2-1.信号処理装置200の構成]
[2-2.信号処理装置200による処理]
<3.第3の実施の形態>
[3-1.信号処理装置200の構成]
[3-2.信号処理装置200による処理]
<4.第4の実施の形態>
[4-1.信号処理装置200の構成]
[4-2.信号処理装置200による処理]
<5.第5の実施の形態>
[5-1.信号処理装置200の構成]
[5-2.信号処理装置200による処理]
<6.第6の実施の形態>
[6-1.信号処理装置200の構成]
[6-2.信号処理装置200による処理]
<7.応用例>
<8.変形例>
<1.第1の実施の形態>
[1-1.振動再生装置の構成]
 図1を参照して、振動再生部130と振動センサ140を備える振動再生装置としてのヘッドホン100の構成について説明する。ヘッドホン100の構成は第1乃至第4の実施の形態で共通である。なお、ヘッドホン100は一対の左側ヘッドホンと右側ヘッドホンとから構成されているが、説明は左側ヘッドホンを参照して行う。以下の説明ではヘッドホン100を装着して使用する者を装着者と称する。
 なお、振動再生装置はウェアラブル、据え置き型どちらでもよく、ウェアラブルの振動再生装置としてはヘッドホン、イヤホン、ネックスピーカーなどがある。ヘッドホンにはオーバヘッド型ヘッドホン、ネックバンド型ヘッドホンなどがあり、イヤホンにはインナーイヤー型イヤホン、カナル型イヤホンなどがある。また、イヤホンには完全独立型のワイヤレス型イヤホンであるトゥルーワイヤレスイヤホン、フルワイヤレスイヤホンなどと称されるものがある。また、ワイヤレス型のヘッドホンやネックスピーカーもある。なお、振動再生装置はワイヤレス型に限られず、有線接続型でもよい。
 ヘッドホン100は、筐体110、基板120、振動再生部130、振動センサ140、イヤピース150を備えて構成されている。ヘッドホン100はいわゆるカナル型と呼ばれるワイヤレスヘッドホンである。なお、ヘッドホン100はイヤホンと称される場合もある。ヘッドホン100は、ヘッドホン100と接続、同期、ペアリング等された電子機器にから送信された再生信号を音声として出力するものである。
 筐体110は、内部に基板120、振動再生部130、振動センサ140などを収容する収容部として機能するものである。筐体110は例えばプラスチックなどの合成樹脂を用いて形成されている。
 基板120は、プロセッサ、MCU(Micro Controller Unit)、バッテリ充電用ICなどが設けられている回路基板である。プロセッサの処理により再生信号処理部、信号出力部121、信号処理装置200、通信部などが実現される。再生信号処理部、通信部の図示は省略する。
 再生信号処理部は例えば、振動再生部130から再生される再生信号に対して、信号増幅処理、イコライジング処理などの所定の音声信号処理を施すものである。
 信号出力部121は、再生信号処理部により処理が施された再生信号を振動再生部130に出力する。再生信号は例えば音声信号である。再生信号はアナログ信号でもよいし、デジタル信号でもよい。なお、再生信号により振動再生部130から出力される音声は音楽でもよいし、音楽以外の音や人物の声であってもよい。
 信号処理装置200は本技術に係る信号処理を行う。信号処理装置200の構成は後述する。
 通信部は無線通信により右側ヘッドホンおよび端末装置との通信を行う。通信方式としては例えば、Bluetooth(登録商標)、NFC(Near Field Communication)、Wi-Fiなどがあるが、通信することができればどのような通信方式でもよい。
 振動再生部130は、再生信号に基づいて振動を再生する。振動再生部130は例えば、再生信号としての音声信号を音声として出力するドライバユニットまたはスピーカである。
 振動再生部130により再生される振動は音楽出力による振動でもよいし、音楽以外の音や声の出力による振動でもよい。また、ヘッドホン100がノイズキャンセリング機能を備える場合、振動再生部130から再生する振動は再生信号としてのノイズキャンセリング用信号の出力による振動でもよいし、ノイズキャンセリング用信号を付加した音声信号の出力による振動でもよい。ヘッドホン100が外音取り込み機能を備える場合、振動再生部130から再生する振動は再生信号としての外音取り込み用信号の出力による振動でもよいし、外音取り込み用信号を付加した音声信号の出力による振動でもよい。
 以下の第1乃至第4の実施の形態では、振動再生部130は再生信号としての音声信号を音声として出力するドライバユニットであるとして説明を行う。ドライバユニットである振動再生部130から音声が出力されることにより筐体110が振動して、その振動を振動センサ140がセンシングする。
 振動センサ140は、筐体110の振動をセンシングするものである。振動センサ140とは、装着者の発話による筐体110の振動と、振動再生部130からの音声出力による筐体110の振動をセンシングすることを目的としたものであり、空気の振動をセンシングすることを目的とするマイクロホンとは異なるものである。振動センサ140は筐体110の振動をセンシングするものであり、マイクロホンは空気の振動をセンシングするものであるため、振動の媒体が異なる。よって、本技術においては振動センサ140にはマイクロホンは含まれないものとする。振動センサ140は例えば加速度センサであり、この場合、振動センサ140はセンサ内部の部材の位置の変異をセンシングする構成となっており、マイクロホンとは構成が異なる。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。
 振動センサ140としては加速度センサの他にも、VPU(Voice Pick Up)センサ、骨伝導センサ等を用いることができる。加速度センサは2軸の加速度センサでもよいし、2軸以上の加速度センサ(例えば3軸加速度センサ)であってよい。2軸以上の加速度センサの場合、複数方向における振動を計測できるため、振動再生部130の振動をより精度高くセンシングできる。
 図1C中の振動センサ140A、振動センサ140B、振動センサ140Dに示すように、振動センサ140を振動再生部130の振動面と平行になるように配置してもよい。
 また、図1C中の振動センサ140C、振動センサ140E、振動センサ140Fに示すように、振動センサ140を振動再生部130の振動面に対して垂直や斜めになるように配置してもよい。これにより振動再生部130からの影響を受けにくくすることができる。
 また、図1C中の振動センサ140C、振動センサ140Dに示すように、振動センサ140を振動再生部130の振動面と同軸上に配置してもよい。
 また、図1C中の振動センサ140A、振動センサ140B、振動センサ140E、振動センサ140Fに示すように、振動センサ140を振動再生部130の振動面と同軸上ではない場所に配置してもよい。これにより振動センサ140を振動再生部130の影響を受けにくくすることができる。
 また、図1C中の振動センサ140A、振動センサ140B、振動センサ140E、振動センサ140Fに示すように、振動センサ140を振動再生部130とは異なる基板120上に配置してもよい。これにより振動再生部130から再生される振動の振動センサ140への伝達を物理的に小さくすることができる。
 また、図1C中の振動センサ140Dに示すように、振動センサ140を振動再生部130の表面に配置してもよい。これにより振動再生部130の振動をより精度高くセンシングできる。
 さらに、図1C中の振動センサ140Cに示すように、振動センサ140を筐体110の内側表面に配置してもよい。これにより振動再生部130から再生される振動の振動センサ140への伝達を物理的に小さくすることができる。さらに、装着者の皮膚により近い位置で振動をセンシングできるため、センシングの精度を高めることができる。
 イヤピース150は、筐体110における装着者の耳に対向する側に形成されている筒状の突起部に設けられている。イヤピース150は例えばカナル型と称され、装着者の外耳孔内に深く挿入するものである。イヤピース150はゴムなどの弾性体により弾力性を有するように構成されており、装着者の外耳孔の内面に密着することにより、ヘッドホン100を耳に装着した状態を維持する役割を担う。また、イヤピース150は装着者の外耳孔の内面に密着することにより外部からの騒音を遮断して音声を聴取し易くする役割と、音声が外部に漏れることを防ぐ役割も担う。
 振動再生部130から出力された音声はイヤピース150内の放音孔から装着者の外耳孔に向けて放音される。これにより装着者はヘッドホン100から再生された音声を聴取することができる。
 ヘッドホン100は以上のようにして構成されている。なお、説明は左側ヘッドホンを参照して行ったが、右側ヘッドホンが上述のように構成されていてもよい。
[1-2.信号処理装置200の構成]
 次に図2を参照して信号処理装置200の構成について説明する。信号処理装置200はノイズ生成部201、ノイズ付加部202、信号処理部203によって構成されている。
 ノイズ生成部201は、振動センサ140から信号処理部203に出力される振動センサ信号に付加するノイズを生成してノイズ付加部202に出力する。ノイズとしては例えばホワイトノイズ、狭帯域ノイズ、ピンクノイズなどを用いることができる。本技術は何らかのノイズに限定されるものではなく、検出対象の振動の特徴と異なる信号であればノイズの種類に限定はない。また、再生信号に応じてもノイズを使い分けてもよい。例えば、再生信号により振動再生部130から出力される音声が男性の声(音楽の場合には男性ボーカル)である場合と、女性の声(音楽の場合には女性ボーカル)である場合とでノイズを使い分ける、などである。
 ノイズ付加部202は、ノイズ生成部201が生成したノイズを振動センサ140から出力された振動センサ信号に付加する処理を行う。ノイズを付加することにより振動再生部130からの音声出力により再生される振動の振動センサ140への伝達成分をマスキングする。ノイズ付加部202は特許請求の範囲における処理部に相当するものである。
処理部であるノイズ付加部202は、信号処理部203による発話検出処理において発話が検出されづらくなるように振動センサ信号を変化させる。
 信号処理部203は、ノイズ付加部202によりノイズが付加された振動センサ信号に基づいて装着者の発話を検出する。信号処理部203は、例えば、機械学習技術を用いて構築したニューラルネットワークや、ディープラーニング技術を用いて構築したニューラルネットワークなどにより振動センサ信号から装着者の発話による筐体110の振動を検出することで装着者の発話を検出する。
 本技術では信号処理部203は装着者の発話を検出するものであるため、装着者の周囲の人の発話を検出するのは好ましくない。一般的に発話の検出はヘッドホン100に設けられたマイクロホンで行うが、マイクロホンでは発話しているのが装着者であるのか他の人であるのかを識別するのは難しい。また、発話しているのが装着者であるのか他の人であるのかを識別するためには複数のマイクロホンが必要となる。筐体が大きいヘッドバンド型のヘッドホンでは複数のマイクロホンを設けることが可能であるが、筐体110が小さいカナル型のヘッドホンでは複数のマイクロホンを設けることは難しい。
 そこで、マイクロホンではなく振動センサ140を用いて装着者の発話による筐体110の振動をセンシングすることにより他の人ではなく装着者の発話を検出する。他の人が発話しても振動センサ140では他の人の発話による振動はセンシングされない、またはセンシングされてもわずかな振動であるため、他の人の発話を装着者の発話であると誤検出することを防止できる。
 信号処理装置200は以上のように構成されている。なお、第1乃至第4の実施の形態のいずれにおいても、信号処理装置200は単体の装置として構成されてもよいし、振動再生装置であるヘッドホン100において動作するものでもよいし、ヘッドホン100と接続、同期、ペアリング等された電子機器等において動作するものでもよい。信号処理装置200がそのような電子機器等において動作する場合、信号処理装置200はヘッドホン100と対応して動作することになる。また、プログラムの実行によりヘッドホン100や電子機器が信号処理装置200の機能を有するように実現されてもよい。信号処理装置200がプログラムにより実現される場合、プログラムは予めヘッドホン100や電子機器内にインストールされていてもよいし、ダウンロード、記憶媒体などで配布されて、ユーザが自らインストールするようにしてもよい。
[1-3.信号処理装置200による処理]
 次に図3と図4を参照して、第1の実施の形態における信号処理装置200による処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS101でノイズ付加部202がその振動センサ信号を受信する。
 また、ステップS102でノイズ生成部201がノイズを生成してノイズ付加部202に出力する。なお、ステップS102は必ずしもステップS101の後に行う必要はなく、ステップS101の前に行ってもよいし、ステップS101とステップS102はほぼ同時に行ってもよい。
 次にステップS103で、ノイズ付加部202が振動センサ信号にノイズ生成部201が生成したノイズを付加し、ノイズが付加された振動センサ信号を信号処理部203に出力する。ノイズ付加部202による振動センサ信号に対するノイズの付加は振動センサ140が筐体110の振動をセンシングして振動センサ信号がノイズ付加部202に入力される間行われる。
 次にステップS104で、信号処理部203がノイズ付加部202によってノイズが付加された振動センサ信号に基づいて発話検出処理を行う。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 図4Aは、振動再生部130からの音声出力による筐体110の振動の振動センサ140への伝達成分を振動センサ信号から得られる時間と音圧の関係で表した例である。図4Aでは振動センサ信号にノイズは付加されていないため、振動再生部130から出力される音声の中に人の声が含まれている場合、装着者が発話していないにも関わらず、振動センサ140には装着者が発話した場合と似た振動パターンが入力されることになる。その場合、振動再生部130から出力される音声内の声による筐体110の振動を振動センサ140がセンシングし、信号処理部203が誤って装着者が発話したと誤検出してしまうおそれがある。
 第1の実施の形態ではこの誤検出を防ぐために振動センサ信号にノイズを付加する。振動センサ信号にノイズを付加することで、筐体110の振動の振動センサ140への伝達成分は図4Bに示すようになり、ノイズでマスキングされる。これにより、振動再生部130から出力される音声に人の声が含まれていたとしても、振動再生部130からの音声による筐体110の振動をセンシングした場合の振動センサ信号が装着者の発話による筐体110の振動をセンシングした場合の振動センサ信号と似た振動パターンではなくなる。ノイズの付加により、振動センサ信号を人の声による振動をセンシングした場合の振動センサ信号とは異なるものとすることで信号処理部203が装着者の発話を誤検出してしまうことを防止できる。
 なお、装着者の発話の声の大きさが振動再生部130から出力される音声の大きさよりも十分大きい場合、装着者の発話による筐体110の振動を示す振動センサ信号にノイズが付加されてもマスキングされないため、信号処理部203はノイズが付加された振動センサ信号であってもそれに基づいて装着者の発話を検出することができる。
 第1の実施の形態における信号処理装置200の処理は以上のようにして行われる。
<2.第2の実施の形態>
[2-1.信号処理装置200の構成]
 次に図5を参照して、第2の実施の形態における信号処理装置200の構成について説明する。ヘッドホン100の構成は第1の実施の形態と同様である。
 信号処理装置200は振動計算部204、ノイズ生成部201、ノイズ付加部202、信号処理部203によって構成されている。
 振動計算部204は、振動再生部130から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部204は計算結果をノイズ生成部201に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。
 振動計算部204は、再生信号の瞬時的な大きさを計算する際は、振動再生部130で再生する再生信号のある時間区間を切り取り、ハイパスフィルタやローパスフィルタ、バンドパスフィルタ等のフィルタを必要に応じて適用し、その後の再生信号のエネルギー(二乗平均値など)を求めるようにしてよい。
 ノイズ生成部201は振動計算部204の計算結果に基づいて振動センサ信号に付加するノイズの大きさを決定してノイズを生成する。ノイズ生成部201は再生信号の大きさに比例するように、再生信号の大きさが大きければ生成するノイズを大きくし、再生信号が小さければ生成するノイズも小さくし、再生信号の瞬時的な大きさに応じてノイズの大きさを時間的に変化させる。
 また、予め振動再生部130から出力される音声の音圧がどのくらい振動センサ140に伝達するかを予測しておき、その予測値に基づいてノイズの大きさを決定することができる。例えば、振動再生部130から音声を出力するための再生信号の大きさに対して、振動再生部130からの音声出力による筐体110の振動の振動センサ140への伝達によって振動センサ140に記録される信号の大きさが0.1倍であるということが予めわかっている場合で振動再生部130から出力される音声の大きさがAである場合、ノイズ生成部201が生成するノイズの大きさを0.1Aにすればよい。
 このように第2の実施の形態では、振動センサ信号に付与するノイズの大きさを振動再生部130から音声出力するための再生信号の瞬時的な大きさに応じて時間的に変化させる。
 なお、第1の実施の形態と同様にノイズとしてはホワイトノイズ、狭帯域ノイズ、ピンクノイズなどを用いることができる。検出対象の振動の特徴と異なる信号であればノイズの種類に限定はないし、再生信号に応じてもノイズを使い分けてもよい。
 ノイズ付加部202は第1の実施の形態と同様に、振動センサ信号にノイズ生成部201が生成したノイズを付加して信号処理部203に出力する。
 信号処理部203は第1の実施の形態と同様に、ノイズ付加部202によりノイズが付加された振動センサ信号に基づいて装着者の発話を検出する。
 以上のようにして第2の実施の形態における信号処理装置200が構成されている。
[2-2.信号処理装置200による処理]
 次に図6と図7を参照して、第2の実施の形態における信号処理装置200による処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS201でノイズ付加部202がその振動センサ信号を受信する。
 また、信号出力部121から再生信号が出力されると、ステップS202で振動計算部204が再生信号を受信する。
 次にステップS203で、振動計算部204は再生信号の瞬時的な大きさを計算する。振動計算部204は、計算結果をノイズ生成部201に出力する。なお、ステップS202およびステップS203は必ずしもステップS201の後に行う必要はなく、ステップS201の前に行ってもよいし、ステップS201とほぼ同時に行ってもよい。
 次にステップS204で、ノイズ生成部201が、振動計算部204が算出した再生信号の大きさに基づいて振動センサ信号に付加するノイズを生成し、ノイズ付加部202に出力する。
 次にステップS205で、ノイズ付加部202が振動センサ信号にノイズを付加し、ノイズが付加された振動センサ信号を信号処理部203に出力する。ノイズ付加部202による振動センサ信号に対するノイズの付加は振動再生部130からの音声出力によって発生した振動を振動センサ140がセンシングし、振動センサ信号がノイズ付加部202に入力される間行われる。
 次にステップS206で、信号処理部203がノイズ付加部202によってノイズが付加された振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第1の実施の形態と同様の方法で行われる。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 図7Aは、振動再生部130からの音声出力による筐体110の振動の振動センサ140への伝達成分を振動センサ信号から得られる時間と音圧の関係で表した例である。図7Aでは振動センサ信号にノイズは付加されていないため、振動再生部130から出力される音声の中に人の声が含まれている場合、装着者が発話していないにも関わらず、振動センサ140には装着者が発話した場合と似た振動パターンが入力されることになる。その場合、振動再生部130から出力される音声内の声による筐体110の振動を振動センサ140がセンシングし、信号処理部203が誤って装着者が発話したと誤検出してしまうおそれがある。
 また、振動センサ信号にノイズを付加するということは装着者の発話による筐体110の振動をセンシングした場合の振動センサ信号にもノイズを付加することになる。これにより、信号処理部203による装着者の発話の検出の精度が低下するおそれがある。
 この誤検出と発話検出精度の低下を防ぐために、第2の実施の形態では振動再生部130からの音声出力するための再生信号の瞬時的な大きさに応じて時間的に変化させたノイズを振動センサ信号に付加する。再生信号の瞬時的な大きさに応じて時間的に変化させたノイズを振動センサ信号に付加することで、筐体110の振動の大きいほど振動センサ信号に付加するノイズも大きくなり、筐体110の振動が小さい場合には振動センサ信号に付加するノイズも小さくなり、振動再生部130からの音声出力による筐体110の振動の振動センサ140への伝達成分は図7Bに示すようになり、ノイズでマスキングされる。
 これにより、振動再生部130から出力される音声に人の声が含まれていたとしても、振動再生部130からの音声出力による筐体110の振動をセンシングした場合の振動センサ信号が装着者の発話による筐体110の振動をセンシングした場合の振動センサ信号と似た振動パターンではなくなる。よって、振動センサ信号を人の声による振動をセンシングした場合の振動センサ信号とは異なるものとすることで信号処理部203によって装着者の発話が誤検出されてしまうことを防止することができる。
 また、振動センサ信号に付加するノイズは再生信号の瞬時的な大きさに応じて時間的に変化させ、振動センサ140への伝達成分をマスキングするために必要最小限のノイズであるため、必要以上に振動センサ信号をマスキングしてしまうことがない。よって、振動センサ信号に基づく装着者の発話検出の成功率を最大限保つことができる。
 第2の実施の形態における信号処理装置200の処理は以上のようにして行われる。
 なお、振動計算部204が算出した、再生信号の瞬時的な大きさが所定の閾値th1以下の場合に、振動センサ信号にノイズを一切付加しないようにしてもよい。
 また、振動再生部130から再生する振動の周波数特性に応じて、付加するノイズの周波数特性を変えてもよい。例えば、振動再生部130から再生する振動の周波数特性に反比例するような周波数特性をノイズに持たせることで、ノイズを付加した後の振動センサ信号の周波数特性がフラットになるようにしてもよい。
  振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。第1および第2の実施の形態では、その振動センサ信号にノイズを付与した後に信号処理部203による発話検出を行う。装着者の発話の声の大きさが振動再生部130から出力される音声よりも十分に大きければ、振動再生部130からの音声出力による筐体110の振動の伝達成分がノイズでマスキングされても、装着者の声による筐体110の振動の伝達成分はノイズでマスキングされないので、信号処理部203は装着者の発話を検出することができる。
 第1および第2の実施の形態は、振動再生部130から音声出力するための再生信号と振動センサ信号の時間的な同期が厳密に取れていない場合でも実行可能である。例えば再生信号のクロックと振動センサ信号のクロックが異なる場合など、システム構成によっては再生信号と振動センサ信号の完全な同期を取ることが難しい、あるいは、不可能な場合にも第1および第2の実施の形態は有効である。
 なお、第2の実施の形態においては、振動再生部130により再生される振動が大きい場合、振動センサ信号に付加されるノイズも大きくなって振動センサ信号がマスキングされるため、装着者の発話の検出精度が下がる場合があり得る。これは、振動再生部130から出力される音声の大きさに対する装着者の声の相対的な大きさが小さいためである。よって、そのような場合には、装着者は振動再生部130から出力される音声の大きさよりも大きい声で発話する必要がある。
 そこで、ヘッドホン100と接続、同期、ペアリングなどがされている電子機器300、例えばスマートフォンにおいて、図8に示すようにその旨を装着者に通知するとよい。通知方法としては、図8Aに示す、画面301におけるメッセージの表示やアイコンの表示、図8Bに示す、LED302の点灯や点滅などがある。電子機器300はスマートフォン以外にもウェアラブルデバイス、パーソナルコンピュータ、タブレット端末、ヘッドマウントディスプレイ、携帯音楽再生装置などであってもよい。
 あるいは、装着者の発話が検出できなかった際に装着者がその理由を知ることができる入力操作を用意し、電子機器300またはヘッドホン100に対してその入力操作がなされたら、理由を装着者に通知するようにしてもよい。
<3.第3の実施の形態>
[3-1.信号処理装置200の構成]
 次に図9を参照して、第3の実施の形態における信号処理装置200の構成について説明する。ヘッドホン100の構成は第1の実施の形態と同様である。
 信号処理装置200は伝達成分予測部205、伝達成分減算部206、信号処理部203によって構成されている。
 伝達成分予測部205は、信号出力部121から振動再生部130に出力される再生信号に基づいて、振動再生部130からの音声出力による筐体110の振動の振動センサ140への伝達成分を予測する。伝達成分予測部205は予測した伝達成分を伝達成分減算部206に出力する。
 伝達成分の予測方法としては、例えば、振動再生部130から振動センサ140への伝達特性(インパルス応答)を事前(信号処理装置200を備える製品の出荷前など)に測定しておき、振動再生部130から音声として出力される再生信号に事前に測定した伝達特性を畳み込む、という方法がある。
 伝達特性は再生信号の大きさや種類等の条件によって変わる可能性があるので、事前に複数の条件における伝達特性を測定しておき、再生信号の大きさ等の条件応じて適切な伝達特性を選択して畳み込んでもよい。
 また、ヘッドホン100においては装着者の違いやイヤピース150のサイズや材質の違い、装着者の耳との接触状態の違いなどの各種条件によって伝達特性が変わる可能性がある。これに対応するために、装着者がヘッドホン100を使用している状態において伝達特性を測定してもよい。その伝達特定の測定の際は、装着者によって意図したタイミングで測定開始指示がなされると、振動再生部130からスイープ信号などの規定の信号が再生され、その際の振動センサ140の信号を元に伝達特性が求められるようにしてもよい。
 上記の方法は、伝達成分減算部206において信号同士のサンプル単位での減算を行うため、振動センサ信号と、伝達成分予測部205で予測した伝達成分は、サンプリング周波数が同じで、サンプル単位で時間的な同期が取れている必要がある。振動再生部130で再生する再生信号の元のサンプリング周波数が振動センサ信号のサンプリング周波数と異なる場合は、サンプリング周波数変換を行ってから上述の予測方法を行えばよい。また、再生信号と振動センサ信号がソフトウェア処理上時間的にずれてしまう場合は、適切な同期補正処理を行えばよい。また、再生信号を振動センサ信号と同期するようにクロックを共通化してもよい。また、遅延回路を用いて振動センサ140と振動再生部130のクロックとサンプリングレートを同期させるようにしてもよい。
 伝達成分減算部206は、振動センサ信号から伝達成分予測部205が予測した伝達成分を減算して、減算処理後の振動センサ信号を信号処理部203に出力する。伝達成分減算部206は特許請求の範囲における処理部に相当するものである。処理部である伝達成分減算部206は、信号処理部203による発話検出処理において発話が検出されづらくなるように振動センサ信号を変化させる。
 信号処理部203は伝達成分減算部206により減算処理が施された振動センサ信号に基づいて装着者の発話を検出する。発話の検出方法は第1の実施の形態と同様である。
 以上のようにして第3の実施の形態における信号処理装置200が構成されている。
[3-2.信号処理装置200による処理]
 次に図10を参照して、第3の実施の形態における信号処理装置200による処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS301で伝達成分減算部206がその振動センサ信号を受信する。
 また、信号出力部121から再生信号が出力されると、ステップS302で伝達成分予測部205が再生信号を受信する。
 次にステップS303で、伝達成分予測部205が再生信号に基づいて伝達成分を予測し、予測結果を伝達成分減算部206に出力する。
 なお、ステップS302およびステップS303は必ずしもステップS301の後に行う必要はなく、ステップS301の前に行ってもよいし、ほぼ同時に行ってもよい。
 次にステップS304で、伝達成分減算部206が振動センサ信号から予測伝達成分を減算して、減算後の振動センサ信号を信号処理部203に出力する。伝達成分減算部206による振動センサ信号からの予測伝達成分の減算は、振動再生部130による振動を振動センサ140がセンシングし、振動センサ信号がノイズ付加部202に入力される間行われる。
 次にステップ305で、信号処理部203は減算処理が施された振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第1の実施の形態と同様の方法で行われる。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 第3の実施の形態における信号処理装置200の処理は以上のようにして行われる。第3の実施の形態では、振動再生部130からの音声出力による筐体110の振動が振動センサ信号に与える影響である伝達成分を予測し、それを振動センサ信号から減算するため、振動再生部130で再生される振動による発話検出性能の低下を防ぐことができる。
<4.第4の実施の形態>
[4-1.信号処理装置200の構成]
 次に図11を参照して、第4の実施の形態における信号処理装置200の構成について説明する。ヘッドホン100の構成は第1の実施の形態と同様である。
 信号処理装置200は振動計算部204、信号処理制御部207、信号処理部203によって構成されている。
 振動計算部204は、第2の実施の形態と同様に、振動再生部130から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部204は計算結果を信号処理制御部207に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。
 信号処理制御部207は、振動計算部204の計算結果に基づいて信号処理部203の動作のオンオフを切り替える制御を行う。信号処理制御部207は、信号処理部203の動作をオフにする処理を行うことで、発話が検出されづらくなるようにする。信号処理制御部207は、振動計算部204が算出した再生信号の大きさが予め設定してある閾値th2以上である場合には信号処理部203が信号処理を行わないように信号処理部203をオフにする制御信号を出力する。一方、再生信号の大きさが閾値th2以上ではない場合には信号処理部203が信号処理を行うように信号処理部203をオンにする制御信号を出力する。閾値th2は再生信号の大きさが振動センサ信号を用いた信号処理に影響を与えると予想される値に設定する。信号処理制御部207は特許請求の範囲における処理部に相当するものである。
 信号処理部203は振動センサ信号に基づいて装着者の発話を検出する。発話の検出方法は第1の実施の形態と同様である。信号処理部203は信号処理制御部207から信号処理部203をオンにする制御信号を受信した場合にのみ動作する。
 第4の実施の形態における信号処理装置200は以上のようにして構成されている。
[4-2.信号処理装置200による処理]
 次に図12を参照して、第4の実施の形態における信号処理装置200の処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS401で信号処理部203がその振動センサ信号を受信する。
 またステップS402で、振動計算部204が信号出力部121から出力された再生信号を受信する。
 次にステップS403で、振動計算部204は再生信号の瞬時的な大きさを計算する。振動計算部204は、計算結果を信号処理部203に出力する。
 なお、ステップS403は必ずしもステップS401およびステップS402の後に行う必要はなく、ステップS401およびステップS402の前に行ってもよいし、ほぼ同時に行ってもよい。
 次にステップS404で、信号処理制御部207が再生信号の大きさと閾値th2を比較し、再生信号の大きさが閾値th2以上ではない場合、処理はステップS405に進む(ステップS404のNo)。
 次にステップS405で、信号処理制御部207は信号処理部203が発話検出処理を実行するように信号処理部203をオンにする制御信号を出力する。
 そしてステップS406で信号処理部203が発話検出処理を行う。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 一方、ステップS404で、再生信号の大きさが閾値th2以上である場合、処理はステップS407に進む(ステップS404のYes)。
 そしてステップS407で、信号処理制御部207は信号処理部203が発話検出処理を実行しないように信号処理部203をオフにする制御信号を出力する。これにより信号処理部203は発話検出処理を行わない。
 以上のようにして第4の実施の形態における処理が行われる。第4の実施の形態によれば、再生信号の大きさが閾値th2以上である場合には信号処理部203により信号処理を行わないようにすることで信号処理による装着者への悪影響が生じないようにすることができる。
<5.第5の実施の形態>
[5-1.信号処理装置200の構成]
 次に図13を参照して、第5の実施の形態における信号処理装置200の構成について説明する。ヘッドホン100の構成は第1の実施の形態と同様である。
 信号処理装置200は振動計算部204、ゲイン計算部208、ゲイン付加部209、信号処理部203によって構成されている。
 振動計算部204は、第2の実施の形態と同様に、振動再生部130から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部204は計算結果をゲイン計算部208に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。
 ゲイン計算部208は、振動計算部204が算出した再生信号の大きさが予め設定してある閾値th3以上である場合には、振動センサ信号が抑圧されるようにゲインを計算(0dBよりも小さいゲインを計算)し、計算結果をゲイン付加部209に出力する。
 ゲイン付加部209は、ゲイン計算部208による計算結果に基づいて振動センサ信号にゲインを掛ける処理を行う。これにより振動センサ信号を抑圧する。ゲイン付加部209は特許請求の範囲における処理部に相当するものである。
 信号処理部203はゲイン付加部209によりゲインが掛けられた振動センサ信号に基づいて装着者の発話を検出する。発話検出処理は第1の実施の形態と同様の方法で行われる。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 第5の実施の形態における信号処理装置200は以上のようにして構成されている。
[5-2.信号処理装置200による処理]
 次に図14を参照して、第5の実施の形態における信号処理装置200による処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS501でゲイン付加部209がその振動センサ信号を受信する。
 また、信号出力部121から再生信号が出力されると、ステップS502で振動計算部204が再生信号を受信する。
 次にステップS503で、振動計算部204は再生信号の瞬時的な大きさを計算する。振動計算部204は、計算結果をゲイン計算部208に出力する。なお、ステップS502およびステップS503は必ずしもステップS501の後に行う必要はなく、ステップS501の前に行ってもよいし、ステップS501とほぼ同時に行ってもよい。
 次にステップS504で、ゲイン計算部208が、振動計算部204が算出した再生信号の大きさが予め設定してある閾値th3以上である場合には、振動センサ信号が抑圧されるようにゲインを計算し、計算結果をゲイン付加部209に出力する。
 次にステップS505で、ゲイン付加部209が振動センサ信号にゲインを掛け、ゲインが掛けられた振動センサ信号を信号処理部203に出力する。ゲイン付加部209は、振動再生部130からの音声出力によって発生した振動を振動センサ140がセンシングし、振動センサ信号がノイズ付加部202に入力される間、振動センサ信号にゲインを掛ける処理を行う。
 次にステップS506で、信号処理部203がゲイン付加部209によってゲインが掛けられた振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第1の実施の形態と同様の方法で行われる。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 以上のようにして第5の実施の形態における処理が行われる。第5の実施の形態によれば、振動センサ信号にゲインを掛けて抑圧された振動センサ信号に基づいて信号処理部203が発話検出処理を行うため、装着者が発話していない場合に装着者の発話であると誤検出してしまうことを抑制できる。
 なお、振動計算部204が算出した再生信号の大きさが大きくなればなるほど、ゲイン付加部209で振動センサ信号にかけるゲインの量を下げることもできる。また、振動計算部204が算出した再生信号の大きさが所定値よりも小さい場合、ゲインを初期値(0dB)に戻すようにしてもよい。
<6.第6の実施の形態>
[6-1.信号処理装置200の構成]
 次に図15を参照して、第6の実施の形態における信号処理装置200の構成について説明する。ヘッドホン100の構成は第1の実施の形態と同様である。
 信号処理装置200は振動計算部204および信号処理部203によって構成されている。
 振動計算部204は、第2の実施の形態と同様に、振動再生部130から音声を出力するための再生信号の瞬時的な大きさを計算する。振動計算部204は計算結果をゲイン計算部208に出力する。再生信号の大きさには瞬時的な大きさを含み、「瞬時的」とは例えばミリ秒単位であるが本技術はそれに限定されるものではない。再生信号の大きさは所定の時間内の振動のピークでもいいし、所定時間の平均でもよい。
 信号処理部203は振動センサ信号に基づいて装着者の発話を検出する。信号処理部203は特許請求の範囲における処理部に相当するものである。
 第6の実施の形態における信号処理装置200は以上のようにして構成されている。
[6-2.信号処理装置200による処理]
 次に図16を参照して、第6の実施の形態における信号処理装置200による処理について説明する。
 振動センサ140は筐体110の振動をセンシングし、当該センシングの結果得られる振動センサ信号を信号処理装置200に出力する。振動センサ140が振動センサ信号を出力すると、ステップS601で信号処理部203がその振動センサ信号を受信する。
 また、信号出力部121から再生信号が出力されると、ステップS602で振動計算部204が再生信号を受信する。
 次にステップS603で、振動計算部204は再生信号の瞬時的な大きさを計算する。振動計算部204は、計算結果を信号処理部203に出力する。なお、ステップS602およびステップS603は必ずしもステップS601の後に行う必要はなく、ステップS601の前に行ってもよいし、ステップS601とほぼ同時に行ってもよい。
 そしてステップS604で、信号処理部203が振動センサ信号に基づいて発話検出処理を行う。発話検出処理は第1の実施の形態と同様の方法で行われる。信号処理部203は、装着者の発話を検出した場合、その検出結果を示す情報を外部の処理部などに出力する。
 信号処理部203の内部処理では、振動センサ信号に人の声が含まれる可能性をニューラルネットワーク等を用いて計算し、0から1のパラメータを生成する。パラメータにおいては、0は人の声が含まれる確率が0%に相当し、1は100%に相当する。信号処理部203は、このパラメータを所定の閾値th4と比較して閾値th4以上であれば、装着者が発話したと判断してその旨の検出結果を出力する。一方、パラメータが閾値th4以上ではない場合、装着者は発話していないと判断してその旨の検出結果を出力する。
 この場合、振動計算部204が算出した再生信号の大きさが予め設定してある閾値th5以上である場合には、信号処理部203は閾値th4を所定量上げる(1に近づける)ことで、装着者の発話を検出しづらくすることができる。
 さらに、振動計算部204が算出した再生信号の大きさが大きくなればなるほど、閾値th4を上げる量を大きくしてもよい。また、振動計算部204が算出した再生信号の大きさが所定量よりも下がった場合、閾値th4を初期値に戻してもよい。
 以上のようにして第6の実施の形態における処理が行われる。第6の実施の形態によれば、パラメータと比較して装着者が発話したと判断する閾値を設定して発話検出をしづらくすることにより、装着者が発話していない場合に装着者の発話であると誤検出してしまうことを抑制できる。
<7.応用例>
 上述した第1乃至第4の実施の形態の信号処理部203は装着者の発話を検出した場合、検出結果を図17に示すように信号処理装置200外の外部処理部400に出力する。そして、発話検出結果は外部処理部400において種々の処理に応用することができる。
 外部処理部400は、装着者がヘッドホン100を装着して振動再生部130から出力される音声(音楽など)を聴いている状態で装着者が発話したという検出結果を信号処理装置200から受信すると、振動再生部130による音声出力を停止する処理を行う。振動再生部130からの音声出力の停止は、例えば、再生信号を出力する電子機器に対して再生信号の出力を停止するよう指示する制御信号を生成し、その制御信号を、通信部を介して電子機器に送信することで行う事ができる。
 ヘッドホン100を装着して音声を聴いている装着者が発話したことを検出して振動再生部130からの音声出力を停止することにより、装着者は人と会話をするためにヘッドホン100を外したり、再生信号を出力している電子機器を操作して音声出力を停止する必要がない。
 本技術により信号処理部203の発話検出の精度を高めることにより、外部処理部400が誤って振動再生部130からの音声出力を停止してしまうことを防止することができる。
 外部処理部400が行う処理は、振動再生部130からの音声出力を停止する処理に限られない。他の処理としては例えばヘッドホン100の動作モードの切り替え処理がある。
 動作モードの切り替え処理とは、具体的には、ヘッドホン100がマイクロホンとそのマイクロホンで取り込んだ音声を振動再生部130から出力して装着者が聞き取りやすくする、いわゆる外音取り込みモードを備える場合に、ヘッドホン100の動作モードをその外音取り込みモードに切り替える処理である。
 本技術で装着者の発話を検出してヘッドホン100のモードを外音取り込みモードに切り替えることにより、装着者はヘッドホン100を外すことなく、快適に人と会話をすることができる。これは、例えば、装着者が家族や友人との話す場合、装着者が飲食店などにおいて口頭で注文する場合、飛行機においてCA(Cabin Attendant)と会話する場合などにおいて有用である。
 なお、外音取り込みモードへの切り替え前のヘッドホンの動作モードは通常モードでもよいし、ノイズキャンセリングモードでもよい。
 なお、外部処理部400は、振動再生部130からの音声出力を停止する処理とヘッドホン100の動作モードを切り替える処理の両方を行ってもよい。振動再生部130からの音声の出力を停止し、さらに、ヘッドホン100の動作モードを外音取り込みモードに切り替えることにより、装着者はより快適に人と会話をすることができるようになる。なお、振動再生部130からの音声出力を停止する処理と、ヘッドホン100の動作モードを切り替える処理を行う処理部は別々の処理部でもよい。
 なお、外部処理部400はヘッドホン100内部の基板120に設けられたプロセッサによる処理で実現してもよいし、ヘッドホン100と接続、同期、ペアリングなどがされている電子機器の処理で実現してもよいし、信号処理装置200に外部処理部400が設けられていてもよい。
<8.変形例>
 以上、本技術の実施の形態について具体的に説明したが、本技術は上述の実施の形態に限定されるものではなく、本技術の技術的思想に基づく各種の変形が可能である。
 振動再生部130と振動センサ140を備える振動再生装置はイヤホンやヘッドマウントディスプレイでもよい。
 また、信号処理部203が行う「振動センサ信号を用いた信号処理」は、例えば、装着者の発話、歩行、タップ、脈拍などの特定の振動の検出処理であってよい。
 第1および第2の実施の形態においては、振動再生部130から再生される音声の音圧が所定の閾値th3以下の場合には、振動再生部130から再生される音声による筐体110の振動が振動センサ140にセンシングされない、またはセンシングされても振動が小さいので、誤って信号処理が実行されることがないとして振動センサ信号にノイズを付加しない、としてもよい。
 ヘッドホン100は振動再生部130と振動センサ140をそれぞれ2つ以上備えていてもよい。その場合、第1および第2の実施の形態においては、それぞれの振動再生部130から再生する振動に基づいて、それぞれの振動センサ140から出力される振動センサ信号に付与するノイズを決定するようにする。また、第3の実施の形態においては、それぞれの振動再生部130からそれぞれの振動センサ140への伝達特性を用いて処理を行う。
 本技術は以下のような構成も取ることができる。
(1)
 振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して動作し、
 前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部
を備える信号処理装置。
(2)
 前記処理部は、前記振動再生部から振動を再生するための再生信号に基づいて、前記処理を行う(1)に記載の信号処理装置。
(3)
 前記処理は、前記発話検出処理において前記発話が検出されづらくなるように前記振動センサ信号を変化させる(1)または(2)に記載の信号処理装置。
(4)
 前記振動センサが前記振動再生装置の筐体の振動をセンシングして出力した前記振動センサ信号に基づいて前記装着者の発話を検出する(1)から(3)のいずれかに記載の信号処理装置。
(5)
 前記処理部は、前記振動センサ信号にノイズを付加するノイズ付加部である(3)に信号処理装置。
(6)
 前記振動再生部から振動を再生するための再生信号の大きさを算出する振動計算部を備え、
 前記ノイズ付加部は、前記再生信号の大きさに応じたノイズを前記振動センサ信号に付加する(5)に記載の信号処理装置。
(7)
 前記処理部は、前記振動センサ信号から、前記振動再生部により再生される振動の振動センサへの伝達成分を減算する伝達成分減算部である(3)に記載の信号処理装置。
(8)
 前記振動再生部から振動を再生するための再生信号に基づいて前記伝達成分を予測し、予測した前記伝達成分を前記伝達成分減算部に出力する伝達成分予測部を備える(7)に記載の信号処理装置。
(9)
 前記処理部は、前記発話検出処理のオンオフを制御する信号処理制御部である(2)に記載の信号処理装置。
(10)
 前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上である場合に前記発話検出処理をオフにするように制御する(9)に記載の信号処理装置。
(11)
 前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上ではない場合に前記発話検出処理をオンにするように制御する(9)に記載の信号処理装置。
(12)
 前記処理部は、前記振動センサ信号を抑圧するゲインを前記振動センサ信号に掛けるゲイン付加部である(3)に記載の信号処理装置。
(13)
 前記処理部は、前記再生信号の大きさに基づいて前記装着者の発話を検出したと判断する閾値を調整する(2)に記載の信号処理装置。
(14)
 前記振動再生部と前記振動センサを備える前記振動再生装置において動作する(1)から(13)のいずれかに記載の信号処理装置
(15)
 前記振動再生装置はヘッドホンである(1)から(14)のいずれかに記載の信号処理装置。
(16)
 前記振動センサは加速度センサである(1)から(15)のいずれかに記載の信号処理装置。
(17)
 前記再生信号は音声信号であり、前記振動再生部は、音声の出力により振動を再生する
(1)から(16)のいずれかに記載の信号処理装置。
(18)
 振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
 前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法。
(19)
 振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
 前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
信号処理方法をコンピュータに実行させるプログラム。
100・・・振動再生装置
130・・・振動再生部
140・・・ノイズ付加部
200・・・信号処理装置
202・・・振動センサ
203・・・信号処理部
205・・・伝達成分予測部
206・・・伝達成分減算部
207・・・信号処理制御部
209・・・ゲイン付加部

Claims (19)

  1.  振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して動作し、
     前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う処理部
    を備える信号処理装置。
  2.  前記処理部は、前記振動再生部から振動を再生するための再生信号に基づいて、前記処理を行う
     請求項1に記載の信号処理装置。
  3.  前記処理は、前記発話検出処理において前記発話が検出されづらくなるように前記振動センサ信号を変化させる
    請求項1に記載の信号処理装置。
  4.  前記振動センサが前記振動再生装置の筐体の振動をセンシングして出力した前記振動センサ信号に基づいて前記装着者の発話を検出する
    請求項1に記載の信号処理装置。
  5.  前記処理部は、前記振動センサ信号にノイズを付加するノイズ付加部である
    請求項3に信号処理装置。
  6.  前記振動再生部から振動を再生するための再生信号の大きさを算出する振動計算部を備え、
     前記ノイズ付加部は、前記再生信号の大きさに応じたノイズを前記振動センサ信号に付加する
    請求項5に記載の信号処理装置。
  7.  前記処理部は、前記振動センサ信号から、前記振動再生部により再生される振動の振動センサへの伝達成分を減算する伝達成分減算部である
    請求項3に記載の信号処理装置。
  8.  前記振動再生部から振動を再生するための再生信号に基づいて前記伝達成分を予測し、予測した前記伝達成分を前記伝達成分減算部に出力する伝達成分予測部を備える
    請求項7に記載の信号処理装置。
  9.  前記処理部は、前記発話検出処理のオンオフを制御する信号処理制御部である
    請求項2に記載の信号処理装置。
  10.  前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上である場合に前記発話検出処理をオフにするように制御する
    請求項9に記載の信号処理装置。
  11.  前記信号処理制御部は、前記再生信号の大きさが所定の閾値以上ではない場合に前記発話検出処理をオンにするように制御する
    請求項9に記載の信号処理装置。
  12.  前記処理部は、前記振動センサ信号を抑圧するゲインを前記振動センサ信号に掛けるゲイン付加部である
    請求項3に記載の信号処理装置。
  13.  前記処理部は、前記再生信号の大きさに基づいて前記装着者の発話を検出したと判断する閾値を調整する
    請求項2に記載の信号処理装置。
  14.  前記振動再生部と前記振動センサを備える前記振動再生装置において動作する
    請求項1に記載の信号処理装置。
  15.  前記振動再生装置はヘッドホンである
    請求項1に記載の信号処理装置。
  16.  前記振動センサは加速度センサである
    請求項1に記載の信号処理装置。
  17.  前記再生信号は音声信号であり、前記振動再生部は、音声の出力により振動を再生する
    請求項1に記載の信号処理装置。
  18.  振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
     前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
    信号処理方法。
  19.  振動を再生する振動再生部と、振動をセンシングする振動センサとを備える振動再生装置と対応して実行され、
     前記振動センサ信号に基づいて前記振動再生装置の装着者の発話を検出する発話検出処理において、発話が検出されづらくなる処理を行う
    信号処理方法をコンピュータに実行させるプログラム。
PCT/JP2022/008288 2021-05-31 2022-02-28 信号処理装置、信号処理方法およびプログラム WO2022254834A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202280037462.3A CN117356107A (zh) 2021-05-31 2022-02-28 信号处理装置、信号处理方法及程序
EP22815592.5A EP4351165A1 (en) 2021-05-31 2022-02-28 Signal processing device, signal processing method, and program
DE112022002887.4T DE112022002887T5 (de) 2021-05-31 2022-02-28 Signalverarbeitungseinrichtung, Signalverarbeitungsverfahren und Programm

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021091684 2021-05-31
JP2021-091684 2021-05-31

Publications (1)

Publication Number Publication Date
WO2022254834A1 true WO2022254834A1 (ja) 2022-12-08

Family

ID=84324140

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/008288 WO2022254834A1 (ja) 2021-05-31 2022-02-28 信号処理装置、信号処理方法およびプログラム

Country Status (4)

Country Link
EP (1) EP4351165A1 (ja)
CN (1) CN117356107A (ja)
DE (1) DE112022002887T5 (ja)
WO (1) WO2022254834A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230800A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号処理装置
JP2011188462A (ja) 2010-03-04 2011-09-22 Japan Science & Technology Agency 発話検出装置及び音声通信システム
JP2013121106A (ja) * 2011-12-08 2013-06-17 Sony Corp 耳孔装着型収音装置、信号処理装置、収音方法
JP2020197712A (ja) * 2019-05-31 2020-12-10 アップル インコーポレイテッドApple Inc. コンテキストに基づく周囲音の増強及び音響ノイズキャンセル

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04230800A (ja) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 音声信号処理装置
JP2011188462A (ja) 2010-03-04 2011-09-22 Japan Science & Technology Agency 発話検出装置及び音声通信システム
JP2013121106A (ja) * 2011-12-08 2013-06-17 Sony Corp 耳孔装着型収音装置、信号処理装置、収音方法
JP2020197712A (ja) * 2019-05-31 2020-12-10 アップル インコーポレイテッドApple Inc. コンテキストに基づく周囲音の増強及び音響ノイズキャンセル

Also Published As

Publication number Publication date
DE112022002887T5 (de) 2024-03-21
EP4351165A1 (en) 2024-04-10
CN117356107A (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
US11294619B2 (en) Earphone software and hardware
US11710473B2 (en) Method and device for acute sound detection and reproduction
EP3217686B1 (en) System and method for enhancing performance of audio transducer based on detection of transducer status
CN110089129B (zh) 使用听筒麦克风的个人声音设备的头上/头外检测
US20170214994A1 (en) Earbud Control Using Proximity Detection
US20200176013A1 (en) Method and device for spectral expansion of an audio signal
CN109348338A (zh) 一种耳机及其播放方法
WO2009128853A1 (en) Method and device for voice operated control
JPWO2011158506A1 (ja) 補聴器、信号処理方法及びプログラム
CN113905320B (zh) 为考虑语音检测而调节声音回放的方法和***
US11467666B2 (en) Hearing augmentation and wearable system with localized feedback
US11533574B2 (en) Wear detection
US11741985B2 (en) Method and device for spectral expansion for an audio signal
WO2008128173A1 (en) Method and device for voice operated control
US9946509B2 (en) Apparatus and method for processing audio signal
US11557307B2 (en) User voice control system
WO2022017469A1 (zh) 耳机通话方法及耳机
WO2022254834A1 (ja) 信号処理装置、信号処理方法およびプログラム
WO2023093412A1 (zh) 主动降噪的方法及电子设备
US20230229383A1 (en) Hearing augmentation and wearable system with localized feedback

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22815592

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18560411

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 202280037462.3

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 112022002887

Country of ref document: DE

Ref document number: 2022815592

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022815592

Country of ref document: EP

Effective date: 20240102