WO2023105778A1 - 音声信号の処理方法、音声信号処理装置、およびプログラム - Google Patents

音声信号の処理方法、音声信号処理装置、およびプログラム Download PDF

Info

Publication number
WO2023105778A1
WO2023105778A1 PCT/JP2021/045610 JP2021045610W WO2023105778A1 WO 2023105778 A1 WO2023105778 A1 WO 2023105778A1 JP 2021045610 W JP2021045610 W JP 2021045610W WO 2023105778 A1 WO2023105778 A1 WO 2023105778A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
signal
output value
unit
speech recognition
Prior art date
Application number
PCT/JP2021/045610
Other languages
English (en)
French (fr)
Inventor
宏 佐藤
翼 落合
マーク デルクロア
慶介 木下
直之 加茂
崇史 森谷
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/045610 priority Critical patent/WO2023105778A1/ja
Publication of WO2023105778A1 publication Critical patent/WO2023105778A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to speech recognition technology, and more particularly to technology for switching between an enhanced signal and an observed signal.
  • Blind source separation enables speech recognition by separating speech, which is difficult to recognize as mixed speech, into the speech of each speaker (see, for example, Non-Patent Document 1).
  • Target speaker extraction uses the pre-registered utterances of the target speaker as auxiliary information, and obtains only the voice of the pre-registered speaker from the mixed voice (for example, see Non-Patent Document 2). Since the extracted speech contains only the voice of the target speaker, speech recognition is possible. However, it may distort the target speaker's speech when removing unwanted sounds. In other words, the performance of speech recognition may rather be degraded by performing speech enhancement.
  • Non-Patent Document 3 A method has been proposed for weakening the strength of speech enhancement for sections in which overlapping speech does not occur (see, for example, Non-Patent Document 3). This is because although voice enhancement is effective for overlapping utterances, there is a high possibility that voice recognition will deteriorate if voice enhancement is applied to non-overlapping utterances (single utterances of the target speaker).
  • an object of the present invention is to provide a technology capable of improving speech recognition performance in view of the above problems.
  • a speech signal processing method provides a method for determining whether or not to perform speech enhancement on an observed signal in which a target speaker's speech overlaps another speaker's speech or noise.
  • an output value indicating the degree to which speech enhancement should be performed is obtained, and using the obtained output value, the ratio between the observed signal and the emphasized signal generated by speech enhancement is determined under a predetermined condition to recognize speech Determine the input signal used for
  • speech recognition performance can be improved.
  • FIG. 1 is a diagram showing a functional configuration example of an audio signal processing device according to an embodiment of the present invention
  • FIG. FIG. 2 is a diagram showing a processing flow example of an audio signal processing method in an audio signal processing apparatus according to an embodiment of the present invention
  • 4 is a diagram showing a functional configuration example of a speech recognition input determination unit 13
  • FIG. FIG. 4 is a diagram showing a processing flow example of a speech recognition input decision method in a speech recognition input decision unit 13;
  • the figure which showed the functional structural example of a switching model learning apparatus The figure which showed the processing flow example of the preparation method of the learned model in a switching model learning apparatus.
  • the figure which showed the functional structural example of the switching label production apparatus The figure which showed the example of the processing flow of the production method of the switching label in a switching label production apparatus.
  • 4 is a diagram showing an example of performance results of speech recognition using the speech signal processing device 1; FIG. The figure which illustrates the functional structure of a computer.
  • FIG. 1 shows a diagram showing a functional configuration example of an audio signal processing device according to an embodiment of the present invention.
  • the speech signal processing device 1 shown in FIG. The audio signal processing method of the embodiment is realized by the audio signal processing device 1 performing the processing of each step illustrated in FIG.
  • one aspect of the speech signal processing apparatus 1 switches which of the observed signal and the emphasized signal to use as an input for speech recognition using the output result of the learned switching model unit 12 .
  • the speech recognition performance can be improved as compared with the case where the speech is always emphasized before the speech recognition or the observed signal is always recognized.
  • the audio signal processing method executed by the audio signal processing device 1 of the embodiment will be described below with reference to FIG.
  • the voice enhancement unit 11 performs voice enhancement processing. That is, the speech enhancement unit 11 acquires an observed signal as an input, uses a known speech enhancement technique to extract only desired speech from the acquired observed signal, and executes speech enhancement processing. As a technique for extracting the desired speech, for example, a known target speaker extraction technique can be used.
  • the target speaker extraction technology is, as shown in FIG. 1, the speech enhancement unit 11 acquires auxiliary information about the target speaker in addition to the observation signal, so that only the target speaker's voice is extracted from the observation signal. It is a technology to extract.
  • For the auxiliary information about the target speaker for example, an utterance or the like registered in advance by the target speaker can be used.
  • the speech waveform itself obtained from the observed signal can be used, or the feature quantity or the like extracted from the observed signal can be used.
  • the voice enhancement unit 11 outputs a voice signal subjected to voice enhancement processing (hereinafter also referred to as “enhanced signal”) to the switching model unit 12 .
  • the switching model unit 12 receives the enhancement signal from the speech enhancement unit 11 .
  • the switching model unit 12 also receives an observed signal, which is a speech signal that has not been subjected to the speech enhancement processing of the speech enhancement unit 11 .
  • the observed signal is configured so as to be directly input to the switching model section 12 in the same manner as the input to the speech enhancement section 11 as shown in FIG. Since the speech enhancement unit 11 acquires the observed signal in step S ⁇ b>11 , the observed signal without speech enhancement processing may be output from the speech enhancement unit 11 to the switching model unit 12 .
  • the switching model unit 12 is a trained model that has been trained using a technique such as a known deep neural network.
  • the signal that the switching model unit 12 receives as an input can be a signal in the waveform domain. Also, the signal may be subjected to feature extraction.
  • the switching model unit 12 receives as input at least one of the observed signal and the enhanced signal, and outputs whether or not speech enhancement should be performed from the viewpoint of speech recognition performance, or the degree to which it should be performed.
  • ⁇ k which is the output of the switching model unit 12, is a value (estimated value) calculated by the switching model unit 12, and can be a scalar value ranging from 0 to 1 defined by the following equation, for example.
  • the switching model unit 12 may be configured to calculate the output ⁇ k as a time-series vector. By calculating the output ⁇ k as a time-series vector, different weights can be adopted for each time, and it is possible to determine the input of speech recognition more finely.
  • the switching model unit 12 outputs the calculated result ⁇ k to the speech recognition input determination unit 13 .
  • a learning method of the switching model unit 12 will be described later.
  • step S13 the speech recognition input determination unit 13 receives the output value ⁇ k received from the switching model unit 12 and ⁇ S from the speech enhancement unit 11, and determines the input for speech recognition.
  • the input ⁇ S to the speech recognition unit 14 is determined to be either the enhanced signal ⁇ S or the observed signal Y, as defined by the following equation. be.
  • is a value set in advance within the range of 0 ⁇ 1, such as 0.5.
  • the method of determining either the enhanced signal ⁇ S or the observed signal Y as ⁇ S, which is the input to the speech recognition unit 14, is called a "hardware method".
  • ⁇ S which is the input for speech recognition, is determined by weighting and adding the enhanced signal ⁇ S and the observed signal Y using the output value ⁇ k of the switching model unit 12 as defined by the following equation. good too.
  • the method of determining ⁇ S which is the input to the speech recognition unit 14, by weighting and adding the emphasized signal ⁇ S and the observed signal Y using the output value ⁇ k is the "soft method". I will say.
  • the voice recognition input determination unit 13 outputs ⁇ S determined by the hardware method or software method to the voice recognition unit 14 .
  • step S14 the speech recognition unit 14 performs speech recognition processing on the signal ⁇ S received from the speech recognition input determination unit 13. Further, the speech recognition unit 14 receives the enhanced signal ⁇ S obtained by the speech enhancement unit 11 and the observation signal Y including utterances of other speakers and noise, etc., and performs speech recognition processing on each of them. good too.
  • the speech recognition unit 14 outputs text information, which is the result of speech recognition corresponding to each speech signal.
  • the speech recognition unit 14 can use known speech recognition technology.
  • FIG. 3 is a diagram showing an example of the functional configuration of the speech recognition input determining section 13. As shown in FIG. The speech recognition input determination unit 13 has an output acquisition unit 131 , a determination unit 132 and a determination unit 133 . The speech recognition input determination unit 13 performs the processing of each step illustrated in FIG. 4 to determine the input for speech recognition. A method of determining a voice recognition input performed by the voice recognition input determining unit 13 will be described below with reference to FIG.
  • step S ⁇ b>131 the output acquisition unit 131 receives the output value ⁇ k from the switching model unit 12 .
  • the output acquisition unit 131 sends the received output value ⁇ k to the determination unit 132 .
  • the determination unit 132 performs predetermined determination using the received output value ⁇ k, and outputs the determination result to the determination unit 133 .
  • the predetermined determination is, for example, when adopting a hardware method, the magnitude of ⁇ k is determined, and only one signal of ⁇ S or Y is determined by determination using the above equations (1) and (2).
  • Output to unit 133 when the software method is adopted, in addition to the value of ⁇ k, the signals of ⁇ S and Y are output to the determination unit 133 .
  • the information indicating whether the software method or the hardware method is to be adopted, the value of ⁇ k, and the signals of ⁇ S and Y may be output to the determination unit 133.
  • the determination unit 133 determines the input signal ⁇ S using the information received from the determination unit 132 and the above equations (1) to (3).
  • the learning method of the switching model unit 12 in the embodiment of the present invention is performed using the switching model learning device illustrated in FIG.
  • the switching model learning device 2 has a switching model section 21 and an optimization section 22 .
  • the switching model learning device 2 performs learning by subjecting the model created by the switching model unit 21 to optimization processing in the optimization unit 22 .
  • the switching model section 21 is used as the switching model section 12 as a trained model used in the audio signal processing device 1 .
  • the switching model learning process is realized by the switching model learning device 2 performing the process of each step illustrated in FIG.
  • the learning method of the switching model according to the embodiment will be described below with reference to FIG.
  • step S21 the switching model unit 21 receives the learning observation signal and the enhancement signal, constructs the basic configuration of the switching model, and outputs this model (switching model during learning) to the optimization unit 22. .
  • step S22 the optimization unit 22 receives the model received from the switching model unit 21 and the switching label created by the switching label creation device 3 described later, optimizes the parameters of the model, and returns them to the switching model unit 21.
  • the processing between the model construction by the switching model unit 21 and the parameter optimization by the optimization unit 22 may be looped, and the optimization may be completed by repeating these processes. In either case, when the optimization is completed and the parameters are determined, the contents are reflected in the switching model section 21, and the switching model is completed.
  • the specific method of optimization by the optimization unit 22 is as follows.
  • the optimization unit 22 calculates a loss function between the switching label k generated by the switching label creation device 3, which will be described later, and the output value ⁇ k calculated by the switching model unit 21, and minimizes the loss function. By doing so, the model parameters included in the switching model unit 21 are optimized.
  • the switching model unit 21 (and the switching model unit 12) has a function of simultaneously estimating the SIR and SNR of the observed signal in order to improve the discrimination performance of the speech recognition of the speech recognition unit 14.
  • SIR is an abbreviation for Signal to Interference Ratio, and is the true value of the ratio between the target speaker's voice and another speaker's voice.
  • SNR is an abbreviation for Signal to Noise Ratio, and is the true value of the ratio between the target speaker's speech and noise.
  • the SIR is closely related to the effect of speech enhancement because it indicates the ratio of the target speaker's signal and the interfering speaker's signal.
  • SNR is closely related to the effect of speech enhancement because non-speech noise has little adverse effect on speech recognition but is relatively difficult to remove by speech enhancement.
  • ⁇ SIR and ⁇ SNR Estimated values of the SIR and SNR of the observed signal by the switching model unit 21 are defined as ⁇ SIR and ⁇ SNR, respectively. That is, ⁇ SIR is the output value of the switching model section 21 when SIR is input as the observation signal, and ⁇ SNR is the output value of the switching model section 21 when SNR is input as the observation signal.
  • S is the speech of the target speaker
  • I is the speech of the interfering speaker
  • N the noise
  • SIR and SNR are defined by the following equations.
  • multitask learning Learning
  • the loss function for SIR and SNR estimation can use the squared error as defined by the following equations.
  • the loss function L multi due to multitasking is defined by the following equation using parameters ⁇ and ⁇ .
  • the learning method of the switching model unit 21 has been described above through the processing of the switching model unit 21 and the optimization unit 22 .
  • the completed switching model section 21 is used as the switching model section 12 in the audio signal processing device 1 .
  • a method for creating a switching label according to the embodiment of the present invention is performed using the switching label creating apparatus illustrated in FIG.
  • the switching label creation device 3 has a trained speech enhancement unit 31 , a trained speech recognition unit 32 , a recognition performance calculation unit 33 , and a switching label generation unit 34 .
  • the speech enhancement section 31 has the same function as the speech enhancement section 11 in FIG.
  • the speech recognition section 32 has the same function as the speech recognition section 14 in FIG.
  • the switching label generator 3 generates switching labels using paired data of observation signals, auxiliary information about the target speaker, and transcription of the target speaker's speech.
  • the switching label production method of the embodiment is realized by the switching label production device 3 performing the processing of each step illustrated in FIG. A method of creating matching labels used in the switching model learning device 2 will be described below with reference to FIG.
  • step S31 the voice enhancement unit 31 performs voice enhancement processing. That is, the speech enhancement unit 31 acquires an observed signal as an input, uses a known speech enhancement technique to extract only a desired speech from the acquired observed signal, and executes speech enhancement processing. At this time, as the auxiliary information about the target speaker, for example, an utterance or the like registered in advance by the target speaker can be used. The speech enhancement unit 31 outputs the emphasized signal subjected to the speech enhancement process to the speech recognition unit 32 .
  • step S32 the speech recognition unit 32 receives, in addition to the enhanced signal obtained from the speech enhancement unit 31, an observed signal including other speaker's speech, noise, and the like.
  • text information which is the result of speech recognition corresponding to each speech signal, is output to the recognition performance calculator 33 .
  • step S33 the recognition performance calculation unit 33 receives the transcription of the target speaker's speech in addition to the speech recognition result corresponding to the emphasized signal received from the speech recognition unit 32 and the speech recognition result for the observed signal.
  • the transcription of the target speaker's speech corresponds to correct information of the speech signal to be speech-recognized.
  • the recognition performance calculator 33 calculates speech recognition performance using the two speech recognition results and the transcription. As a method of calculating speech recognition performance, a known speech recognition performance evaluation standard such as character error rate can be used.
  • the recognition performance calculation unit 33 outputs the calculated speech recognition performance result to the switching label generation unit 34 .
  • step S34 the switching label generation unit 34 converts the optimization unit 22 shown in FIG. Generate a switching label k to be used as a teacher label for the optimization of the unit 21 .
  • the switching label k is a label indicating which of the observed signal and the enhanced signal has higher speech recognition performance, and is defined by the following equation, for example.
  • CER obs indicates the speech recognition performance based on the character error rate of the observed signal
  • CER enh indicates the speech recognition performance based on the character error rate of the enhanced signal.
  • the switching label k when the character error rate of CER obs , which is the speech recognition performance of the observed signal, is lower than CER enh , which is the speech recognition performance of the enhanced signal (in other words, For example, if CER obs has better speech recognition performance), the switching label k is set to 0 (zero). Also, when CER enh , which is the speech recognition performance of the enhanced signal, has a lower character error rate than CER obs , which is the speech recognition performance of the observed signal (in other words, when CER enh has better speech recognition performance). , set the switching label k to 1 (one). That is, the switching label k is a binary label of 0 or 1.
  • the switching label k may be determined more flexibly than a binary label as follows. That is, the speech recognition performance of each of the observed signal and the enhanced signal may be compared and calculated based on the performance difference. For example, the switching label k may be determined more flexibly than the binary label by using the following definitional expression with T as the temperature parameter.
  • the method for determining the switching label k may be as follows. That is, the weight may be set so as to maximize the speech recognition performance when recognizing speech obtained by weighting and averaging the observed signal and the emphasized signal. As one method for realizing this, the speech recognition unit 32 obtains a recognition result for speech obtained by weighting and adding the observed signal and the emphasized signal at various ratios, and the recognition performance calculation unit 33 calculates the recognition performance for each.
  • the switching label k may be the weight that is calculated and that achieves the highest recognition performance in the switching label generator 34 .
  • paired data are generated for four types of information: observation signals, auxiliary information about the target speaker, enhancement signals, and switching labels.
  • FIG. 9 is a diagram showing an example of performance results of speech recognition using the speech signal processing device 1.
  • FIG. 9 shows results for five cases of conditions (a) to (e) as input targets to the speech recognition unit 14 .
  • condition (a) is the observed signal
  • condition (b) is the enhanced signal
  • condition (c) is the hardware method of this embodiment
  • condition (d) is the main Condition (e) shows the case of using the software method and the model with multitask learning of the present embodiment when the hardware method and the model with multitask learning of the embodiment are used.
  • each of conditions (a) to (e) is evaluated by assigning three levels of SIR and SNR to each.
  • the results are shown when the SIR is changed in three steps, 0, 10, and 20, and the SNR is also changed in three steps, 0, 10, and 20, respectively, and speech recognition processing is performed. Except for condition (f), the speech recognition performance results under each condition are shown using the Character Error Rate standard, and the smaller the number, the better the speech recognition performance. ing. Since speech recognition is performed using the same speech recognition unit in FIG. 9, it is possible to directly compare the character recognition results for each condition.
  • FIG. 9(f) shows the performance improvement rate with respect to the result of condition (b) in the result of condition (e).
  • FIG. 9(f) shows the performance improvement rate with respect to the result of condition (b) in the result of condition (e).
  • condition (e) The performance improvement rate of condition (e) with respect to the result of condition (b) shown in FIG. , and the other 7 cases gave better performance results than condition (b). Specifically, when the SIR was 10, the improvement was 8% to 32%, and when the SIR was 20, it was 25% to 42%. The overall average value also improved the recognition rate by 19%. As described above, it can be seen that the speech recognition performance is improved when the speech recognition input determination unit 13 of the present embodiment is used as compared to the speech recognition performance using the emphasized signal.
  • a program that describes this process can be recorded on a computer-readable recording medium.
  • Any computer-readable recording medium may be used, for example, a magnetic recording device, an optical disk, a magneto-optical recording medium, a semiconductor memory, or the like.
  • this program is carried out, for example, by selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded.
  • the program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to other computers via the network.
  • a computer that executes such a program for example, first stores the program recorded on a portable recording medium or the program transferred from the server computer once in its own storage device. Then, when executing the process, this computer reads the program stored in its own recording medium and executes the process according to the read program. Also, as another execution form of this program, the computer may read the program directly from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to this computer. Each time, the processing according to the received program may be executed sequentially. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer the program from the server computer to this computer, and realizes the processing function only by its execution instruction and result acquisition. may be It should be noted that the program in this embodiment includes information that is used for processing by a computer and that conforms to the program (data that is not a direct instruction to the computer but has the property of prescribing the processing of the computer, etc.).
  • ASP
  • the device is configured by executing a predetermined program on a computer, but at least part of these processing contents may be implemented by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

音声認識性能を向上させる。本発明の実施の形態の音声信号の処理方法は、目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または音声強調を行うべき度合を示した出力値を取得する。取得された出力値を用いて観測信号と音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する。

Description

音声信号の処理方法、音声信号処理装置、およびプログラム
 本発明は音声認識技術に関し、特に強調信号と観測信号との切り替え技術に関する。
 近年、深層学習技術の発達により音声認識の性能は向上した。しかし、それでも音声認識が困難な状況の例として複数人の混合音声(オーバーラップ発話)が挙げられる。これに対処するため、以下のような技術が考案されている。
 ブラインド音源分離は、混合音声のままでは音声認識が困難な音声を、各話者の音声に分離することで音声認識を可能にする(例えば、非特許文献1参照)。
 目的話者抽出は、目的話者が事前登録した発話を補助的な情報として利用し、事前登録された話者の音声のみを混合音声から取得する(例えば、非特許文献2参照)。抽出した音声は目的話者の声だけを含むことから音声認識が可能である。但し、望ましくない音を除去する際に目的話者音声を歪ませてしまうことがある。つまり音声強調を行うことによって却って音声認識性能を劣化させてしまう場合がある。
 オーバーラップ発話の生じていない区間に対し、音声強調の強度を弱める手法が提案されている(例えば、非特許文献3参照)。音声強調はオーバーラップ発話に効果的であるものの、非オーバーラップ発話(目的話者の単独発話)に対して音声強調を施すと却って音声認識を劣化させる可能性が高いからである。
Yu, Dong, et al. "Permutation invariant training of deep models for speaker-independent multi-talker speech separation." 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017. Zmolikova, Katerina, et al. "SpeakerBeam: Speaker aware neural network for target speaker extraction in speech mixtures." IEEE Journal of Selected Topics in Signal Processing 13.4 (2019): 800-814. Wang, Quan, et al. "VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition." arXiv preprint arXiv:2009.04323 (2020).
 しかしながら、音声強調の効果はオーバーラップ発話の有無のみで決まるものではない。例えばオーバーラップ発話区間であっても目的話者の音量と、他の話者である干渉話者との間に音量の大きな差があれば音声認識は音量の大きい目的話者の音声のみを認識する傾向にある。この場合、音声強調を行わず観測信号をそのまま音声認識した方が高い音声認識率の結果が得られると考えられる。同様に非オーバーラップ発話の区間においても音声強調を施した入力の方が高い音声認識率の結果が得られる場合も考えられる。本発明の目的は、上記のような課題に鑑みて、音声認識性能を向上させることができる技術を提供することである。
 上記課題を解決するために、本発明の一態様の音声信号の処理方法は、目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または音声強調を行うべき度合を示した出力値を取得し、取得された出力値を用いて観測信号と音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する。
 本発明によれば音声認識性能を向上させることができる。
本発明の一実施の形態に係る音声信号処理装置の機能構成例を示した図。 本発明の一実施の形態に係る音声信号処理装置における音声信号の処理方法の処理フロー例を示した図。 音声認識入力決定部13の機能構成例を示した図。 音声認識入力決定部13における音声認識入力の決定方法の処理フロー例を示した図。 スイッチングモデル学習装置の機能構成例を示した図。 スイッチングモデル学習装置における学習済みモデルの作成方法の処理フロー例を示した図。 スイッチングラベル作成装置の機能構成例を示した図。 スイッチングラベル作成装置におけるスイッチングラベルの作成方法の処理フロー例を示した図。 音声信号処理装置1を利用した音声認識の性能結果の一例を示した図。 コンピュータの機能構成を例示する図。
 はじめに、この明細書における表記方法について説明する。
 <表記方法>
 文中で使用する記号「~」(上付きチルダ)は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「~S」は数式中では次式で表される。
Figure JPOXMLDOC01-appb-M000008

 また本文で使用する記号「^」(上付きハット)も、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記述している。例えば、「^k」は数式中では次式で表される。
Figure JPOXMLDOC01-appb-M000009

 以下、本発明の実施の形態について詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
 図1に本発明の一実施の形態に係る音声信号処理装置の機能構成例を示した図を示す。図1に示した音声信号処理装置1は、音声強調部11と、スイッチングモデル部12と、音声認識入力決定部13と、音声認識部14を備えている。音声信号処理装置1が、図2に例示する各ステップの処理を行うことにより、実施形態の音声信号処理方法が実現される。音声信号処理装置1の一態様は、後述するように、観測信号と強調信号のうちいずれを音声認識の入力として利用するかを学習済みのスイッチングモデル部12の出力結果を用いて切り替える。これにより常に音声強調を行ってから音声認識を行う場合や常に観測信号を認識する場合と比較して音声認識性能を向上させることができる。
 以下、図2を参照して、実施形態の音声信号処理装置1が実行する音声信号処理方法について説明する。
 ステップS11において、音声強調部11は音声強調処理を行う。即ち、音声強調部11は、入力として観測信号を取得し、公知の音声強調技術を用いて、取得した観測信号から、所望の音声のみを抽出し、音声強調処理を実行する。所望の音声を抽出する手法としては、例えば公知の目的話者抽出技術を利用することができる。目的話者抽出技術とは、図1に示すように、音声強調部11が、観測信号の取得に加え、目的話者に関する補助情報を取得することにより、目的話者の音声のみを観測信号から抽出する技術である。目的話者に関する補助情報は、例えば目的話者が事前に登録した発話等を用いることができる。なお、音声強調部11が取得する入力信号としては、観測信号から得られる音声波形そのものを用いることもできるし、観測信号から抽出された特徴量等を用いることもできる。音声強調部11は音声強調処理が施された音声信号(以下、「強調信号」ともいう。)をスイッチングモデル部12へ出力する。
 ステップS12において、スイッチングモデル部12は、強調信号を音声強調部11から受け取る。また、スイッチングモデル部12は、音声強調部11の音声強調処理が施されていない音声信号である観測信号も受け取る。観測信号は、図1に示すように音声強調部11への入力と同様に、直接にスイッチングモデル部12に入力されるように構成する。ステップS11において音声強調部11は観測信号を取得することから、音声強調部11から音声強調処理を施していない観測信号をスイッチングモデル部12に出力するように構成してもよい。
 スイッチングモデル部12は、公知のディープニューラルネットワークなどの技術を用いて学習された学習済みモデルである。スイッチングモデル部12が入力として受け取る信号は、波形領域の信号とすることができる。また、信号に対して特徴抽出が施されたものとすることもできる。スイッチングモデル部12は、観測信号と強調信号の少なくとも一方の信号を入力とし、音声認識性能の観点で音声強調を行うべきかどうか、あるいは行うべき度合を出力する。スイッチングモデル部12の出力である^kはスイッチングモデル部12が算出した値(推定値)であり、例えば次式で定義される0から1の範囲をとるスカラー値とすることができる。
Figure JPOXMLDOC01-appb-M000010

 スイッチングモデル部12は、出力である^kを時系列のベクトルとして算出するように構成してもよい。出力である^kが時系列のベクトルとして算出されることにより、各時刻毎に異なる重みを採用することができ、音声認識の入力の決定を、よりきめ細かく行うことが可能となる。
 スイッチングモデル部12は、算出した結果である^kを音声認識入力決定部13へ出力する。なお、スイッチングモデル部12の学習方法については後述する。
 ステップS13において、音声認識入力決定部13は、スイッチングモデル部12から受け取った出力値^kと音声強調部11から^Sを受け取り、音声認識の入力を決定する。
ここで、音声認識部14への入力を~Sとすると、次式で定義されるように、音声認識部14への入力~Sは強調信号^Sあるいは観測信号Yのどちらか一方に決定される。式(2)において、λは例えば0.5など、0<λ<1の範囲で予め設定した値である。本実施の形態では、このように強調信号^Sあるいは観測信号Yのいずれか一方の信号を音声認識部14への入力である~Sとして決定する手法を「ハード手法」と言うこととする。
Figure JPOXMLDOC01-appb-M000011

Figure JPOXMLDOC01-appb-M000012

 音声認識の入力である~Sは、次式で定義されるように強調信号^Sと観測信号Yをスイッチングモデル部12の出力値^kを用いて重みづけして加算することにより決定してもよい。本実施の形態では、強調信号^Sと観測信号Yを出力値^kを用いて重みづけして加算することにより音声認識部14への入力である~Sを決定する手法を「ソフト手法」と言うこととする。
Figure JPOXMLDOC01-appb-M000013

 音声認識入力決定部13は、ハード手法、あるいはソフト手法により決定された~Sを音声認識部14へ出力する。
 ステップS14において、音声認識部14は、音声認識入力決定部13から受け取った信号~Sに対して音声認識処理を実行する。また、音声認識部14は、音声強調部11で得た強調信号^Sと、他の話者の発話や雑音等を含む観測信号Yを受け取り、それぞれに対して音声認識処理を施すようにしてもよい。音声認識部14は各音声信号に対応する音声認識結果であるテキスト情報を出力する。音声認識部14は公知の音声認識技術を利用することができる。
<音声認識入力決定部13の処理について>
 本発明の実施形態における音声認識入力決定部13における音声認識入力決定処理(図2、ステップS13)の具体的な処理の流れについて説明する。図3は音声認識入力決定部13の機能構成例を示した図である。音声認識入力決定部13は、出力取得部131と、判定部132と、決定部133とを有する。音声認識入力決定部13が、図4に例示する各ステップの処理を行うことにより、音声認識の入力の決定を行う。以下、図4を参照して、音声認識入力決定部13が実行する音声認識入力の決定方法について説明する。
 ステップS131において、出力取得部131は、スイッチングモデル部12から出力値^kを受け取る。出力取得部131は、受け取った出力値^kを判定部132に送出する。ステップS132において、判定部132は、受け取った出力値^kを用いて所定の判定を行い、判定した結果を決定部133に出力する。所定の判定とは、例えばハード手法を採用する場合は、^kの大きさを判定し、上記式(1)と式(2)を用いた判定により^SあるいはYの一方の信号のみを決定部133へ出力する。また、ソフト手法を採用する場合は、^kの値に加え、^SとYの信号を決定部133へ出力する。他の例としては、ソフト手法とハード手法のいずれの手法を採用するかを示した情報と、^kの値、^S及びYの信号を決定部133へ出力するように構成してもよい。ステップS133において、決定部133は、判定部132から受け取った情報および、上記式(1)から式(3)を用いて入力信号~Sを決定する。
<スイッチングモデルの学習方法>
 本発明の実施形態におけるスイッチングモデル部12の学習方法は、図5で例示したスイッチングモデル学習装置を用いて行う。スイッチングモデル学習装置2は、スイッチングモデル部21と、最適化部22とを有する。スイッチングモデル学習装置2は、スイッチングモデル部21により作成されたモデルが最適化部22にて最適化処理が施されることにより学習を行う。スイッチングモデル部21はスイッチングモデル学習装置2による学習により、音声信号処理装置1で使用される学習済みモデルとしてのスイッチングモデル部12として使用されることとなる。スイッチングモデル学習装置2が、図6に例示する各ステップの処理を行うことにより、スイッチングモデルの学習処理が実現される。以下、図6を参照して、実施形態のスイッチングモデルの学習方法について説明する。
 ステップS21において、スイッチングモデル部21は、学習用の観測信号と強調信号とを受け取り、スイッチングモデルの基本構成が構築され、このモデル(学習中のスイッチングモデル)が最適化部22へと出力される。
 ステップS22において、最適化部22は、スイッチングモデル部21から受け取ったモデルと、後述するスイッチングラベル作成装置3で作成されたスイッチングラベルを受け取りモデルのパラメータを最適化し、スイッチングモデル部21へと戻す。スイッチングモデル部21によるモデル構築と、最適化部22によるパラメータの最適化の間の処理はループ処理により、それらの処理を繰り返すことで最適化を完成するように構成してもよい。いずれの場合であっても、最適化が完了してパラメータが確定するとその内容が、スイッチングモデル部21に反映され、スイッチングモデルが完成する。
 最適化部22による最適化の具体的手法は以下の通りである。最適化部22は、後述するスイッチングラベル作成装置3により生成されたスイッチングラベルkと、スイッチングモデル部21が算出した出力値^kとの間の損失関数を算出し、その損失関数の最小化を図ることで、スイッチングモデル部21に含まれるモデルパラメータの最適化を行う。
 損失関数としては、例えば次式で定義される公知のクロスエントロピー損失を用いることができる。
Figure JPOXMLDOC01-appb-M000014

 ここで、スイッチングモデル部21(及びスイッチングモデル部12)は、^kの算出に加え、音声認識部14の音声認識の識別性能を高めるために、観測信号のSIRおよびSNRを同時に推定する機能を採用してもよい。SIRとはSignal to Interference Ratioの略称であり目的話者の音声と別の話者の音声との比率の真値である。SNRとはSignal to Noise Ratioの略称であり、目的話者の音声と雑音との比率の真値である。SIRは目的話者信号と干渉話者信号の比を示すことから音声強調の効果と関連が深い。またSNRは非音声雑音は音声認識に対する悪影響が小さい一方で音声強調による除去が比較的困難であることから、音声強調の効果と関連が深い。
 スイッチングモデル部21による観測信号のSIRおよびSNRの推定値をそれぞれ^SIRおよび^SNRと定義する。即ち、^SIRは観測信号としてSIRを入力した場合のスイッチングモデル部21の出力値であり、^SNRは観測信号としてSNRを入力した場合のスイッチングモデル部21の出力値である。目的話者の音声をSとし、干渉話者の音声をIとし、雑音をNとすると、SIR及びSNRは次式で定義される。
Figure JPOXMLDOC01-appb-M000015

Figure JPOXMLDOC01-appb-M000016

 スイッチングモデル部21が、観測信号のSIRおよびSNRを同時に推定する場合には、SIRおよびSNRの推定誤差に関する損失関数と、上記のスイッチングラベルkに対する損失関数を重みづけ加算した損失関数を最小化する学習(以下、「マルチタスク学習」ともいう)を行う。例えばSIRおよびSNR推定の損失関数は次式で定義するように二乗誤差を用いることができる。
Figure JPOXMLDOC01-appb-M000017

Figure JPOXMLDOC01-appb-M000018

 ここでマルチタスクによる損失関数Lmultiはパラメータα、βを用いると次式で定義される。
Figure JPOXMLDOC01-appb-M000019

 以上、スイッチングモデル部21と最適化部22の処理により、スイッチングモデル部21の学習方法について説明した。完成されたスイッチングモデル部21は、音声信号処理装置1におけるスイッチングモデル部12として利用される。
<スイッチングラベルの作成方法>
 本発明の実施形態におけるスイッチングラベルの作成方法は、図7で例示したスイッチングラベル作成装置を用いて行う。スイッチングラベル作成装置3は、学習済みの音声強調部31と、学習済みの音声認識部32と、認識性能算出部33と、スイッチングラベル生成部34とを有する。音声強調部31は、図1の音声強調部11と同じ機能を有する。音声認識部32は、図1の音声認識部14と同じ機能を有する。スイッチングラベル作成装置3は、観測信号、目的話者に関する補助情報、目的話者音声のトランスクリプションのペアデータを用いてスイッチングラベルを生成する。スイッチングラベル作成装置3が、図8に例示する各ステップの処理を行うことにより、実施形態のスイッチングラベル作成方法が実現される。以下、図8を参照して、スイッチングモデル学習装置2で使用されるマッチングラベルの作成方法について説明する。
 ステップS31において、音声強調部31は音声強調処理を行う。即ち、音声強調部31は、入力として観測信号を取得し、公知の音声強調技術を用いて、取得した観測信号から、所望の音声のみを抽出し、音声強調処理を実行する。この際、目的話者に関する補助情報は、例えば目的話者が事前に登録した発話等を用いることができる。音声強調部31は音声強調処理が施された強調信号を音声認識部32へ出力する。
 ステップS32において、音声認識部32は、音声強調部31から得た強調信号に加え、他の話者の音声や雑音等を含む観測信号を受け取る。受け取った観測信号のそれぞれに対して音声認識処理を施すことで、各音声信号に対応する音声認識結果であるテキスト情報を認識性能算出部33へ出力する。
 ステップS33において、認識性能算出部33は、音声認識部32から受け取った強調信号に対応する音声認識結果と、観測信号に対する音声認識結果に加え、目的話者音声のトランスクリプションを受け取る。目的話者音声のトランスクリプションは、音声認識の対象となる音声信号の正解の情報に当たる。認識性能算出部33は、2つの音声認識結果と、トランスクリプションを用いて、音声認識の性能を算出する。音声認識性能の算出方法としては、文字誤り率などの公知の音声認識性能評価基準を用いることができる。認識性能算出部33は算出した音声認識の性能結果をスイッチングラベル生成部34へ出力する。
 ステップS34において、スイッチングラベル生成部34は、認識性能算出部33から取得した、強調信号に対する音声認識性能と、観測信号に対する音声認識性能を元に、図5に示した最適化部22がスイッチングモデル部21の最適化のために教師ラベルとして用いるスイッチングラベルkを生成する。スイッチングラベルkは、観測信号と強調信号のいずれが、音声認識性能が高かったかを示すラベルであり、例えば次式で定義される。
Figure JPOXMLDOC01-appb-M000020

 ここでCERobsは観測信号の文字誤り率基準での音声認識性能を示し、CERenhは強調信号の文字誤り率基準での音声認識性能を示す。上記の式(4)で示したスイッチングラベルkの場合は、観測信号の音声認識性能であるCERobsの方が強調信号の音声認識性能であるCERenhよりも文字誤り率が低い場合(換言すれば、CERobsの方が音声認識性能が良い場合)には、スイッチングラベルkを0(ゼロ)と設定する。また、強調信号の音声認識性能であるCERenhの方が観測信号の音声認識性能であるCERobsよりも文字誤り率が低い場合(換言すれば、CERenhの方が音声認識性能が良い場合)には、スイッチングラベルkを1(イチ)と設定する。即ち、スイッチングラベルkは、0か1の2値ラベルとなる。
 スイッチングラベルkは、以下のように2値ラベルではなく、より柔軟に決定できるようにしてもよい。即ち、観測信号と強調信号の夫々の音声認識性能を比較し、その性能差に基づき算出してもよい。例えば、Tを温度パラメータとし、次式の定義式を用いて、スイッチングラベルkを2値ラベルよりも柔軟に決定してもよい。
Figure JPOXMLDOC01-appb-M000021

 スイッチングラベルkの決定手法は、以下でもよい。即ち、観測信号と強調信号を重み付け平均した音声を認識させた際に、最も音声認識性能を高くするような重みとしてもよい。これを実現する一つの方法として、音声認識部32において、観測信号と強調信号を様々な比率で重み付け加算した音声に対する認識結果を得て、認識性能算出部33において、夫々に対して認識性能を算出し、スイッチングラベル生成部34にて最も高い認識性能を実現した重みをスイッチングラベルkとしてもよい。
 以上の処理によって、観測信号、目的話者に関する補助情報、強調信号、スイッチングラベルの4種類の情報についてのペアデータを生成する。
<性能結果について>
 図9は音声信号処理装置1を利用した音声認識の性能結果の一例を示した図である。図9では、音声認識部14への入力対象として条件(a)から条件(e)の5つの場合の結果を示している。ここで、条件(a)は観測信号、条件(b)は強調信号、条件(c)は本実施の形態のハード手法、かつマルチタスク学習なしのモデルを使用した場合、条件(d)は本実施の形態のハード手法、かつマルチタスク学習ありのモデルを使用した場合、条件(e)は、本実施の形態のソフト手法、かつマルチタスク学習ありのモデルを使用した場合を示す。図9では、条件(a)から条件(e)の夫々に対して、それぞれSIRとSNRを各3段階に振って評価をしている。即ち、SIRを0,10,20、SNRも0,10,20と夫々三段階に変化させて音声認識処理を施した場合の結果を示している。各条件における音声認識の性能結果は、条件(f)の場合を除き、文字誤率(Character Error Rate)基準を用いて示しており、数字が小さいほど、音声認識の性能としては高いことを示している。図9では同一の音声認識部を使用し音声認識を行っていることから、各条件同士の文字認識結果を直接比較することが可能である。図9(f)には、条件(e)の結果において、条件(b)の結果に対する性能向上率を示している。また、図9では、条件(c)から条件(e)の結果には、条件(b)の結果と比較して、条件(b)の性能結果よりも優秀な結果の場合には丸「〇」で囲み、条件(b)の性能結果と同等な結果の場合には三角「△」で囲み、条件(b)の性能結果よりも劣る結果の場合には四角「□」で囲んで表記している。
 図9に示す通り、本実施の形態における条件(c)のハード手法、かつマルチタスク学習なしのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=0の場合のみであり、同等の結果になったのはSIR=0と10におけるSNR=10と20の場合の4ケースであり、残りの4ケースは、条件(b)の強調信号よりも優秀な性能結果になった。平均値(Avg.)は、条件(b)の強調信号よりも1.7%優秀な性能となった。
 本実施の形態における条件(d)のハード手法、かつマルチタスク学習ありのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=0の場合のみであり、同等の結果になったのはSIR=0におけるSNR=10と20の2ケースであり、残りの6ケースは、条件(b)の強調信号よりも優秀な結果になった。平均値は、条件(b)の強調信号よりも1.9%優秀な結果となった。
 本実施の形態における条件(e)のソフト手法、かつマルチタスク学習ありのモデルを使用した場合、条件(b)の強調信号よりも劣る結果になったのは、SIR=0でSNR=10,20の2ケースであり、同等の結果になったケースはなく、残りの7ケースは、条件(b)の強調信号よりも優秀な結果になった。平均値は、条件(b)の強調信号よりも2.6%優秀な性能結果となった。
 図9(f)に示した、条件(b)の結果に対する条件(e)の性能向上率は、SIR=0でSNRが10、20のときはいずれも3%の性能低下がみられたものの、他の7ケースは条件(b)よりも優秀な性能結果となった。具体的にはSIRが10のときは8%から32%の向上が見られ、SIRが20のときは25%から42%向上した。全体の平均値も19%の認識率の向上が見られた。このように、強調信号を用いた音声認識の性能と比較して、本実施の形態の音声認識入力決定部13を使用した場合は、音声認識の性能が向上していることが分かる。
 以上、本発明の実施の形態による音声信号の処理方法を説明した。本実施形態の手法を用いることにより、本発明では、スイッチングモデル部12が出力する^kを用いることにより、強調信号と観測信号を使い分けることで音声強調による性能劣化を防ぐことができ、音声認識性能を向上させることができる。これにより、オーバーラップ発話の生じている区間においても音声強調が必要のない場合や、オーバーラップ発話の生じていない区間であっても音声強調が必要な場合に、適切に音声強調の有無の判断を行うことが可能となる。これにより適切に強調信号と観測信号を切り替えることが可能となり、結果として音声認識性能を向上させることができる。
 加えて、本実施形態で示したSIRとSNRを推定するマルチタスク学習ありのモデルでは、音声強調との関連が深いSIRやSNRを考慮することにより、より高い識別性能が得られる。
 さらに、スイッチングモデル部12の出力である^kを用いて、強調信号と観測信号を重みづけして加算することにより、識別モデルの不確かさを考慮した入力音声の決定が可能になる。
 なお、上述の各種の処理は、記載に従って時系列的に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
[プログラム、記録媒体]
 上述の各種の処理は、図10に示すコンピュータ2000の記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040、表示部2050などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
1 音声信号処理装置
11,31 音声強調部
12,21 スイッチングモデル部
13 音声認識入力決定部
14,32 音声認識部
2 スイッチングラベル作成装置
3 スイッチングモデル学習装置
22 最適化部
33 認識性能算出部
34 スイッチングラベル生成部
131 出力取得部
132 判定部
133 決定部

Claims (8)

  1.  目的話者の音声に別の話者の音声または雑音が重複する観測信号に対して音声強調を行うべきか否か、または前記音声強調を行うべき度合を示した出力値を取得し、
     取得された前記出力値を用いて前記観測信号と前記音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する、
    音声信号の処理方法
  2.  前記所定条件とは、前記出力値を^k、前記強調信号を^S、前記観測信号をY、前記入力信号を~S、λを0<λ<1の範囲で予め設定した値とすると、次式で定義される請求項1に記載の音声信号の処理方法。
    Figure JPOXMLDOC01-appb-M000001

    Figure JPOXMLDOC01-appb-M000002
  3.  前記所定条件とは、前記出力値を^k、前記強調信号を^S、前記観測信号をY、前記入力信号を~Sとすると、次式で定義される請求項1に記載の音声信号の処理方法。
    Figure JPOXMLDOC01-appb-M000003
  4.  前記出力値は学習済みモデルによって出力された出力値であって、前記学習済みモデルは、前記観測信号と前記強調信号の少なくとも一方の信号を入力とし、音声認識性能の観点で前記音声強調を行うべきか否か、または前記音声強調を行うべき度合を出力する請求項1から3に記載の音声信号の処理方法。
  5.  前記学習済みモデルは、損失係数をLとし、前記学習済みモデルのモデル生成に用いられた教師ラベルをkとした場合、次式で定義された算出結果であるLを最小化するように学習された請求項4に記載の音声信号の処理方法。
    Figure JPOXMLDOC01-appb-M000004
  6.  前記観測信号において、前記目的話者の音声と前記別の話者の音声との比率の真値をSIRとし、前記目的話者の音声と前記雑音との比率の真値をSNRとし、前記SIRを入力した場合の前記学習済みモデルの出力値を^SIRとし、前記SNRを入力した場合の前記学習済みモデルの出力値を^SNRとした場合、パラメータα、βを用いて、次式で定義された算出結果であるLmultiを前記損失係数として使用する請求項5に記載の音声信号の処理方法。
    Figure JPOXMLDOC01-appb-M000005

    Figure JPOXMLDOC01-appb-M000006

    Figure JPOXMLDOC01-appb-M000007
  7.  目的話者の音声に別の話者の音声または雑音が重複している観測信号に対して音声強調を行うべきか否か、または前記音声強調を行うべき度合を示した出力値を取得する取得部と、
     前記取得部により取得された出力値を用いて前記観測信号と前記音声強調により生成された強調信号との割合を所定条件下で判定して音声認識に使用される入力信号を決定する決定部と、
    を有する音声信号処理装置。
  8.  請求項1から6のいずれかに記載の信号処理方法をコンピュータに機能させるためのプログラム。
PCT/JP2021/045610 2021-12-10 2021-12-10 音声信号の処理方法、音声信号処理装置、およびプログラム WO2023105778A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045610 WO2023105778A1 (ja) 2021-12-10 2021-12-10 音声信号の処理方法、音声信号処理装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/045610 WO2023105778A1 (ja) 2021-12-10 2021-12-10 音声信号の処理方法、音声信号処理装置、およびプログラム

Publications (1)

Publication Number Publication Date
WO2023105778A1 true WO2023105778A1 (ja) 2023-06-15

Family

ID=86729845

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/045610 WO2023105778A1 (ja) 2021-12-10 2021-12-10 音声信号の処理方法、音声信号処理装置、およびプログラム

Country Status (1)

Country Link
WO (1) WO2023105778A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082999A (ja) * 1998-09-07 2000-03-21 Nippon Telegr & Teleph Corp <Ntt> 雑音低減処理方法、その装置及びプログラム記憶媒体
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置
JP2014102318A (ja) * 2012-11-19 2014-06-05 Jvc Kenwood Corp 雑音除去装置、雑音除去方法、及びプログラム
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000082999A (ja) * 1998-09-07 2000-03-21 Nippon Telegr & Teleph Corp <Ntt> 雑音低減処理方法、その装置及びプログラム記憶媒体
JP2008309856A (ja) * 2007-06-12 2008-12-25 Yamaha Corp 音声認識装置及び会議システム
JP2011065128A (ja) * 2009-08-20 2011-03-31 Mitsubishi Electric Corp 残響除去装置
JP2014102318A (ja) * 2012-11-19 2014-06-05 Jvc Kenwood Corp 雑音除去装置、雑音除去方法、及びプログラム
CN112201267A (zh) * 2020-09-07 2021-01-08 北京达佳互联信息技术有限公司 一种音频处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Snyder et al. Deep neural network embeddings for text-independent speaker verification.
Kannan et al. Large-scale multilingual speech recognition with a streaming end-to-end model
JP7023934B2 (ja) 音声認識方法及び装置
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
US20120130716A1 (en) Speech recognition method for robot
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2012105231A1 (ja) モデル適応化装置、モデル適応化方法およびモデル適応化用プログラム
CN111465982A (zh) 信号处理设备和方法、训练设备和方法以及程序
Mallidi et al. Autoencoder based multi-stream combination for noise robust speech recognition.
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP2009086581A (ja) 音声認識の話者モデルを作成する装置およびプログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
Saeki et al. DRSpeech: Degradation-robust text-to-speech synthesis with frame-level and utterance-level acoustic representation learning
JP2016143042A (ja) 雑音除去装置及び雑音除去プログラム
JP6721165B2 (ja) 入力音マスク処理学習装置、入力データ処理関数学習装置、入力音マスク処理学習方法、入力データ処理関数学習方法、プログラム
WO2012105385A1 (ja) 有音区間分類装置、有音区間分類方法、及び有音区間分類プログラム
WO2023105778A1 (ja) 音声信号の処理方法、音声信号処理装置、およびプログラム
JP4577543B2 (ja) モデル適応装置およびモデル適応方法、記録媒体、並びに音声認識装置
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7359028B2 (ja) 学習装置、学習方法、および、学習プログラム
KR20220053475A (ko) 전자 장치 및 이의 제어 방법
WO2020162240A1 (ja) 言語モデルスコア計算装置、言語モデル作成装置、それらの方法、プログラム、および記録媒体
Dat et al. Robust speaker verification using low-rank recovery under total variability space
WO2010109725A1 (ja) 音声処理装置、音声処理方法、及び、音声処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21967270

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023566050

Country of ref document: JP

Kind code of ref document: A