JP7283375B2 - Signal processing method and information processing device - Google Patents

Signal processing method and information processing device Download PDF

Info

Publication number
JP7283375B2
JP7283375B2 JP2019232912A JP2019232912A JP7283375B2 JP 7283375 B2 JP7283375 B2 JP 7283375B2 JP 2019232912 A JP2019232912 A JP 2019232912A JP 2019232912 A JP2019232912 A JP 2019232912A JP 7283375 B2 JP7283375 B2 JP 7283375B2
Authority
JP
Japan
Prior art keywords
classification
model
subband
sub
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019232912A
Other languages
Japanese (ja)
Other versions
JP2020126227A (en
Inventor
リィウ・リィウ
シ・ズチアン
リヌ・ホォイビヌ
リィウ・ルゥジエ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2020126227A publication Critical patent/JP2020126227A/en
Application granted granted Critical
Publication of JP7283375B2 publication Critical patent/JP7283375B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Description

本発明は、信号処理分野に関し、特に、音声イベント検出に用いる信号処理方法及び該信号処理方法を実現し得る情報処理装置に関する。 The present invention relates to the field of signal processing, and more particularly to a signal processing method used for audio event detection and an information processing apparatus capable of implementing the signal processing method.

音声には、日常生活の環境における各種の異なるイベントの情報が大量に含まれる。音声により、所在するシーン(例えば、騒がしい街道、オフィスなど)を感知し、及び/又は、幾つかの特定のイベント(例えば、歩行者の足跡、自動車の通過など)を識別することができる。このようなシーン及びイベントの認識は、音声イベント検出と総称することができる。 Speech contains a large amount of information of various different events in the environment of everyday life. Audio can sense the scene in which it is located (eg, busy street, office, etc.) and/or identify some specific events (eg, footsteps of pedestrians, passing cars, etc.). Such scene and event recognition can be collectively referred to as audio event detection.

実際には、音声イベントの自動検出の応用が多くある。例えば、音声イベント検出は、インテリジェント装置、インテリジェントロボット、環境感知、監視システムなどの応用又はシーンに用いることができる。 In practice, there are many applications of automatic detection of audio events. For example, audio event detection can be used in applications or scenes such as intelligent devices, intelligent robots, environmental sensing, surveillance systems, and the like.

今のところ、音声イベント検出は、一般的に、分類アルゴリズムにより実現される。しかし、従来の音声イベント分類のためのアルゴリズムは、検出待ちシーンが複雑である(例えば、認識待ち音声イベントの種類が複数存在する)場合における検出の正確度が比較的低い。よって、複雑なシーンにおいても依然として音声イベントを正確に検出し得る方法又は装置の提供が望ましい。 Currently, audio event detection is commonly achieved by classification algorithms. However, conventional algorithms for audio event classification have relatively low detection accuracy when the scene to be detected is complex (eg, there are multiple types of audio events to be recognized). Therefore, it is desirable to provide a method or apparatus that can still accurately detect audio events even in complex scenes.

従来の音声イベント検出方法に対して改善を行うニーズに鑑み、本発明の目的の1つは、複雑なシーンにおいても依然として音声イベントを正確に検出し得る信号処理方法、及び該信号処理方法を実現し得る情報処理装置を提供することにある。 In view of the need for improvements to conventional audio event detection methods, one object of the present invention is to provide a signal processing method and method that can still accurately detect audio events even in complex scenes. It is an object of the present invention to provide an information processing apparatus capable of

本発明の一側面によれば、信号処理方法が提供され、それは、
音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び
分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定することを含み、
そのうち、分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、そして、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、
そのうち、分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。
According to one aspect of the present invention, a signal processing method is provided, comprising:
dividing a time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
inputting the obtained subband signals into a trained classification model; and using the classification model to determine classes of audio events contained in the audio signal;
Wherein, the classification model includes a plurality of subband models respectively corresponding to each subband, and each subband model is input based on the effect of the corresponding subband on speech event classification obtained by training. weighting the weighted subband signals and outputting an initial classification result for the audio event based on the weighted subband signals;
Wherein the classification model outputs a final classification result for the speech event based on the initial classification results of the multiple sub-band models.

本発明の他の側面によれば、情報処理装置が提供され、それは、処理器を含み、前記処理器は、次のように構成され、即ち、音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び、分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定するように構成される。そのうち、分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 According to another aspect of the present invention, an information processing device is provided, which includes a processor, the processor is configured as follows: Time-frequency domain signal obtained based on audio signal is divided according to a plurality of subbands in the frequency direction to obtain subband signals corresponding to each subband; input the obtained subband signals into a trained classification model; and classify the classification model to determine the class of audio events contained in the audio signal. Wherein, the classification model includes a plurality of subband models respectively corresponding to each subband, and each subband model is input based on the effect of the corresponding subband on speech event classification obtained by training. outputting an initial classification result for the speech event based on the weighted subband signals; Output the final classification result for

本発明の他の側面によれば、コンピュータに、上述のような信号処理方法を実現させるためのプログラムがさらに提供される。 According to another aspect of the present invention, there is further provided a program for causing a computer to implement the signal processing method as described above.

本発明の他の側面によれば、対応する記憶媒体がさらに提供され、その中には、マシン可読指令コードが記憶されており、前記指令コードは、マシンにより読み出されて実行されるときに、マシンに、上述のような信号処理方法を実行させることができる。 According to another aspect of the present invention, there is further provided a corresponding storage medium having machine-readable instruction code stored therein, said instruction code being read and executed by a machine , can cause the machine to perform the signal processing method as described above.

本発明の上述した各側面によれば、少なくとも次のような利点を得ることができ、即ち、本発明による信号処理方法、情報処理装置、プログラム及び記憶媒体を用いることにより、周波数サブバンドの音声イベント分類への影響に基づいて、各サブバンドについて、音声信号の周波数領域の特徴に対して強化(enhancement)を行い、強化された特徴に基づいて、より正確な分類結果を取得することができる。 According to the above-described aspects of the present invention, at least the following advantages can be obtained: by using the signal processing method, information processing device, program and storage medium according to the present invention, frequency sub-band audio Based on the impact on event classification, for each subband, enhancements can be made to the frequency domain features of the audio signal, and based on the enhanced features, more accurate classification results can be obtained. .

本発明の実施例における信号処理方法のフローチャートである。4 is a flowchart of a signal processing method according to an embodiment of the present invention; 図1に示す信号処理方法に実行される処理の説明図である。FIG. 2 is an explanatory diagram of processing executed in the signal processing method shown in FIG. 1; 図1に示す信号処理方法に応用される分類モデルを示す図である。2 shows a classification model applied to the signal processing method shown in FIG. 1; FIG. 本発明の実施例における信号処理方法の他のフローチャートである。4 is another flowchart of a signal processing method according to an embodiment of the present invention; 図4に示す信号処理方法に応用される分類モデルを示す図である。5 is a diagram showing a classification model applied to the signal processing method shown in FIG. 4; FIG. 本発明の実施例における信号処理装置の構成図である。1 is a configuration diagram of a signal processing device in an embodiment of the present invention; FIG. 本発明の実施例における信号処理装置の他の構成図である。FIG. 4 is another configuration diagram of the signal processing device in the embodiment of the present invention; 本発明の実施例における信号処理方法及び装置を実現し得るハードウェアの構成図である。1 is a configuration diagram of hardware that can implement a signal processing method and apparatus according to an embodiment of the present invention; FIG.

以下、添付した図面を参照しながら、本発明を実施するための好適な形態を詳細に説明する。なお、このような実施形態は、例示に過ぎず、本発明を限定するものでない。 Preferred embodiments for carrying out the present invention will now be described in detail with reference to the accompanying drawings. It should be noted that such an embodiment is merely an example and does not limit the present invention.

本発明の一側面では、信号処理方法が提供される。図1は、本発明の実施例における信号処理方法100の例示的なフローチャートである。 One aspect of the present invention provides a signal processing method. FIG. 1 is an exemplary flowchart of a signal processing method 100 according to an embodiment of the invention.

図1に示すように、信号処理方法100は、以下のようなステップを含んでも良い。 As shown in FIG. 1, the signal processing method 100 may include the following steps.

サブバンド分割ステップS101:音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
サブバンド信号入力ステップS103:取得されたサブバンド信号を訓練済みの分類モデルに入力し;
音声イベント分類ステップS105:分類モデルを用いて、音声信号に含まれる音声イベントのクラス(種類)を確定する。
Subband division step S101: dividing the time-frequency domain signal obtained based on the audio signal according to a plurality of subbands in the frequency direction to obtain a subband signal corresponding to each subband;
Subband signal input step S103: Input the obtained subband signals into a trained classification model;
Audio event classification step S105: Determine the class (kind) of the audio event contained in the audio signal using the classification model.

本実施例における信号処理方法では、採用される分類モデルが、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、そのうち、各サブバンドモデルが、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、そして、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力する。それ相応に、分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 In the signal processing method of this embodiment, the classification model employed includes a plurality of subband models respectively corresponding to each subband, among which each subband model is obtained by training for the corresponding subband Weighting the input subband signals based on their impact on audio event classification, and outputting an initial classification result for the audio event based on the weighted subband signals. Correspondingly, the classification model outputs a final classification result for the speech event based on the initial classification results of the multiple subband models.

一例として、本実施例における信号処理方法により処理される音声イベント/シーンのクラスは、例えば、大人の男性の話し、大人の女性の話し、子供の話し、街道のシーン、オフィスのシーン、歩行者の通過、貨車の通過、自転車の通過などを含む。 As an example, the classes of audio events/scenes processed by the signal processing method in this embodiment are e.g. adult male speech, adult female speech, child speech, street scene, office scene, pedestrian Including the passage of trains, the passage of freight cars, the passage of bicycles, etc.

本発明の発明者が次のようなことを発見した。即ち、異なる音声シーン又はイベントに係る異なる対象が発する音声が各自対応する周波数を有する。例えば、女性が話すときに音声の周波数が通常男性よりも高く;荷物満載のトラックのような大きな物体の通過による振動の音の周波数が自転車のような小さな物体よりも低く;コウモリが周波数20000Hz超の超音波を発することができるが、地震時に20Hz未満の低周波音しか生じないなどである。 The inventors of the present invention have discovered the following. That is, sounds emitted by different objects in different audio scenes or events have corresponding frequencies. For example, when women speak, the frequency of speech is usually higher than that of men; the sound frequency of vibrations caused by passing large objects, such as fully loaded trucks, is lower than that of small objects, such as bicycles; bats have frequencies greater than 20000 Hz. Ultrasonic waves can be emitted, but only low-frequency sounds of less than 20 Hz are produced during earthquakes.

よって、本実施例における信号処理方法では、異なる周波数サブバンドについて、音声信号の周波数領域の特徴に対して強化を行う。具体的には、訓練により取得された、周波数サブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号(それは、音声信号の周波数領域の特徴と見なすことができる)に重み(weight)を付けて強化を行うことで、強化されたサブバンド信号に基づいて正確な分類結果を得ることができる。 Therefore, the signal processing method in this embodiment enhances the frequency domain features of the speech signal for different frequency sub-bands. Specifically, weights ( weight), an accurate classification result can be obtained based on the enhanced subband signals.

以下、図2及び図3に基づいて、図1に示す情報処理方法に実行される例示的な処理を説明する。そのうち、図2は、図1に示す信号処理方法におけるサブバンド分割ステップの例示的な処理の説明図であり、図3は、図1に示す信号処理方法に採用される分類モデルの例示的な構成を示す図である。 Exemplary processing performed in the information processing method shown in FIG. 1 will be described below based on FIGS. 2 and 3. FIG. Among them, FIG. 2 is an explanatory diagram of exemplary processing of the subband division step in the signal processing method shown in FIG. 1, and FIG. 3 is an exemplary classification model employed in the signal processing method shown in FIG. It is a figure which shows a structure.

一例として、本実施例では、音声信号に基づいて得られた時間周波数領域信号がスペクトログラム(声紋)を含んでも良い。図2に示すように、時間領域の音声信号xt(0≦t≦Tであり、Tは音声信号の時間の長さである)を例とする場合、関連する分野における従来の変換により、該信号のスペクトログラムui,jを得ることができ、そのうち、0≦i≦I、0≦j≦Jであり、Iは、スペクトログラムの幅であり、且つ音声信号の時間の長さに対応し、Jは、スペクトログラムの高さであり、且つ音声信号の周波数範囲全体に対応し、ui,jは、時間i及び周波数jのところにおける周波数領域信号の値(例えば、短時間フーリエ変換などの方式で取得されるパワースペクトル密度など)である。 As an example, in this embodiment, a time-frequency domain signal derived from an audio signal may include a spectrogram (voiceprint). As shown in Fig. 2, taking the time domain audio signal x t (0≤t≤T, where T is the time length of the audio signal) as an example, according to the conventional transform in the relevant field, A spectrogram u i,j of the signal can be obtained, where 0≤i≤I, 0≤j≤J, where I is the width of the spectrogram and corresponds to the time length of the audio signal. , J is the height of the spectrogram and corresponds to the entire frequency range of the audio signal, and u i,j is the value of the frequency domain signal at time i and frequency j (e.g., the short-time Fourier transform (such as the power spectral density obtained by the method).

上述の形式を有するスペクトログラムui,jについて、サブバンド分割ステップS101では、図2の下方に示すように、それを周波数方向上のN個のサブバンドに従って分割を行い、N個のサブバンド信号ui,j1(0≦i≦I、0≦j1≦J1)、…,ui,jn-2(0≦i≦I、0≦jn-2≦JN-2)、ui,jn-1(0≦i≦I、0≦jn-1≦JN-1)、ui,jn(0≦i≦I、0≦jn≦JN)を取得することができ、そのうち、Nは、1よりも大きい自然数であり、J1、…、JN-2、JN-1、JNは、各サブバンドの境界における周波数である。 For the spectrogram u i,j having the above format, in subband division step S101, as shown in the lower part of FIG. 2, it is divided according to N subbands in the frequency direction to obtain N subband signals u i,j1 (0≤i≤I, 0≤j1≤J1 ), …, u i,jn-2 (0≤i≤I, 0≤jn -2≤JN -2 ), u i, jn-1 (0 ≤ i ≤ I, 0 ≤ j n-1 ≤ J N-1 ), u i,jn (0 ≤ i ≤ I, 0 ≤ j n ≤ J N ), of which , N are natural numbers greater than 1, and J 1 , . . . , J N-2 , J N-1 , J N are the frequencies at the boundaries of each subband.

好ましくは、N個のサブバンドのような複数のサブバンドが周波数方向上で均一に分割されても良い。Nの値が大きいほど、サブバンドの分割が細かく、各サブバンド信号に、周波数サブバンドの音声イベント分類への影響を表す重みを正確に付けることができる。なお、当業者が理解すべきは、具体的な応用に当たって、処理速度、システムパフォーマンスなどのファクターのバランスを総合的に考慮することで、Nの適切な数を選択しても良いということである。 Preferably, a plurality of subbands, such as N subbands, may be evenly divided in the frequency direction. The larger the value of N, the finer the division of the subbands and the more accurately each subband signal can be weighted to represent the frequency subband's impact on speech event classification. It should be understood by those skilled in the art that the appropriate number of N can be selected by comprehensively considering the balance of factors such as processing speed and system performance in specific applications. .

オプションとして、N個のサブバンドのような複数のサブバンドが周波数方向上で音声イベントの周波数についての先験的知識に基づいて分割されても良い。例えば、音声イベントの検出を必要とするシーンに含まれる各音声イベント各自の周波数範囲に基づいて、音声信号に基づいて得られた時間周波数領域信号に対して周波数方向上の複数のサブバンドに従って初期分割を行うことで、各サブバンドが、できるだけ、検出される可能性のある1つの音声イベントの周波数範囲に対応するようにさせることができる。 Optionally, multiple sub-bands, such as N sub-bands, may be divided in the frequency direction based on a priori knowledge of the frequencies of the audio events. For example, based on the respective frequency range of each audio event contained in a scene that requires detection of the audio event, initializing the time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction. The division is done so that each subband corresponds as far as possible to the frequency range of one possible audio event to be detected.

続いて、サブバンド信号入力ステップS103では、取得されたサブバンド信号ui,j1、…、ui,jn-2、ui,jn-1、ui,jnを訓練済みの分類モデルに入力し、音声イベント分類ステップS105では、分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定する。 Subsequently, in subband signal input step S103, the obtained subband signals u i, j1 , . However, in the audio event classification step S105, the classification model is used to determine the class of the audio event contained in the audio signal.

図3は、分類モデルの例示的な構成を示しており、該分類モデルは、例えば、畳み込みニューラルネットワークに基づくモデルを含んでも良い。図3に示すように、分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルM1、M2、…、MNを含んでも良く、そのうち、各サブバンドモデルは各自、若干個の畳み込み層、プーリンング層などを含む畳み込みニューラルネットワークの一般的な構成の簡単なニューラルネットワークにより実現することができる。本実施例では、スペクトログラム形式のような時間周波数領域信号を採用するので、一例として、各サブバンドモデルが、画像処理のための、畳み込みニューラルネットワークに基づく分類器を用いて、画像信号を分類する方式に似た方式でスペクトログラム形式の時間領域信号に対して分類を行っても良い。音声信号を処理するための従来の一般的なベイズ分類器などに比べ、本実施例で採用する畳み込みニューラルネットワークに基づく分類器は、数が比較的多いクラスの処理にとってより有利であり、複雑な音声シーンの検出において分類の正確度を改善することができる。 FIG. 3 shows an exemplary configuration of a classification model, which may include, for example, a model based on convolutional neural networks. As shown in FIG. 3, the classification model may include a plurality of subband models M1 , M2 , . It can be realized by a simple neural network with a general configuration of a convolutional neural network including convolutional layers, pooling layers, and the like. Since the present embodiment employs a time-frequency domain signal such as a spectrogram format, as an example each subband model classifies the image signal using a convolutional neural network-based classifier for image processing. A similar scheme may be used to classify time domain signals in spectrogram form. Compared with conventional general Bayesian classifiers and the like for processing speech signals, the convolutional neural network-based classifier adopted in the present embodiment is more advantageous for processing a relatively large number of classes and has a complex classifier. It can improve classification accuracy in detecting audio scenes.

図3の左側に示すように、各サブバンドモデルM1、M2、…、MNは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号ui,j1、ui,j2、…、ui,jnに重みs1、s2、…、sNを付け、そして、以下の公式(1)により、重みが付けられた第c個目のサブバンド信号を取得することができる。

Figure 0007283375000001
As shown on the left side of Fig . 3, each subband model M 1 , M 2 , . The band signals u i,j1 , u i,j2 , . th subband signal can be obtained.
Figure 0007283375000001

そのうち、cは、1≦c≦Nであり、サブバンドの順番号を表す。 Among them, c satisfies 1≦c≦N and represents the order number of the subband.

1つの好適な実施例では、活性化関数を用いて公式(1)における重みscを得ることができる。即ち、各サブバンドモデルMcは、訓練により取得される活性化関数fexcを用いて、対応するサブバンドcの音声イベント分類への影響を示すことができ、そのうち、活性化関数fexcの入力が、対応するサブバンド信号ui,jcの強度Zcであり、活性化関数の出力が、該サブバンド信号の重みscである。活性化関数fexc自身が、例えば、パラメータ行列の形式又は簡単なニューラルネットワークの形式であっても良く、また、その具体的なパラメータが分類モデル訓練時に一緒に取得されても良い。 In one preferred embodiment, an activation function can be used to obtain the weights s c in formula (1). That is, each subband model M c can use the activation function fex c obtained by training to show the impact on the speech event classification of the corresponding subband c, of which the activation function fex c The input is the intensity Z c of the corresponding subband signal u i,jc and the output of the activation function is the weight s c of the subband signal. The activation function fex c itself may, for example, be in the form of a parameter matrix or a simple neural network, and its specific parameters may be taken together during classification model training.

一例として、サブバンド信号の全ての情報の周波数方向上及び時間方向上の累積結果を以て該サブバンド信号の強度を表すことができる。例えば、各サブバンドcのサブバンド強度Zcが以下の公式(2)により取得されても良い。

Figure 0007283375000002
As an example, the intensity of a subband signal can be represented by the result of accumulating all information of the subband signal in the frequency direction and the time direction. For example, the subband intensity Z c of each subband c may be obtained by formula (2) below.
Figure 0007283375000002

上述の公式(2)により示されるサブバンド強度Zc、及び訓練により取得される活性化関数fexcを用いて、各サブバンドの活性化重みsc=fexc(Zc)を得ることができる。取得された重みs1、s2、…、sNを公式(1)に応用することにより、重みが付けられたサブバンド信号
(外1)

Figure 0007283375000003

を取得し、分類用のサブバンドモデルに入力することができる。各サブバンドモデルに入力されるサブバンド信号が重みを付けることにより特徴強化されるので、分類モデルにより、分類結果を改善することができる。 Using the subband strength Z c given by formula (2) above and the activation function fex c obtained by training, we can obtain the activation weight s c =fex c (Z c ) for each subband. can. By applying the obtained weights s 1 , s 2 , . . . , s N to formula (1), the weighted subband signals
Figure 0007283375000003

can be obtained and input into the subband model for classification. The classification model can improve classification results because the subband signals input to each subband model are feature enhanced by weighting.

図3の右側に示すように、重みが付けられたサブバンド信号
(外2)

Figure 0007283375000004

に基づいて、各サブバンドモデルM1、M2、…、MNは各自、音声イベントに関する初期分類結果Class1、Class2、…、ClassNを出力し、分類モデルは、これに基づいて最終分類結果Classを出力することができる。一例として、畳み込みニューラルネットワークにより実現される分類モデルを用いて取得された各初期分類結果及び最終分類結果は、音声イベントが各所定イベントクラスに属する確率を示す1次元ベクトルであっても良い。例えば、サブバンドモデルMcの初期分類結果がClassc={pc 1,pc 2,…,pc K}であり,そのうち、pc 1、pc 2、…、pc Kは、それぞれ、入力されたサブバンド信号
(外3)
Figure 0007283375000005

が、予め設定されたK個のクラスのうちの各クラスに属する確率を示す。 As shown on the right side of Fig. 3, the weighted subband signal (outer 2)
Figure 0007283375000004

, each subband model M 1 , M 2 , . Classification result Class can be output. As an example, each initial and final classification result obtained using a classification model implemented by a convolutional neural network may be a one-dimensional vector indicating the probability that an audio event belongs to each given event class. For example, the initial classification result of the subband model Mc is Class c = { pc 1 , pc 2 , ..., pc K }, where pc 1 , pc 2 , ..., pc K are Respectively, input sub-band signals (outer 3)
Figure 0007283375000005

indicates the probability of belonging to each class out of preset K classes.

例えば、各初期分類結果に重みを付けることで、最終分類結果を、以下の公式(3)に示すように得ることができる。
Class=w1Class1+w2Class2+…+wNClassN 公式(3)
For example, by weighting each initial classification result, the final classification result can be obtained as shown in formula (3) below.
Class=w 1 Class 1 +w 2 Class 2 +…+w N Class N formula (3)

公式(3)に使用される各重み係数w1、w2、…、wNは、分類モデル訓練時に一緒に取得することができる。なお、分類モデルを訓練する例示的な方法について、後述する。ここで、各初期分類結果に重みを付けるなどの方式で最終分類結果を取得する処理は、例えば、畳み込みニューラルネットワークモデルの全結合層により実現することができる。 Each weighting factor w 1 , w 2 , . . . , w N used in formula (3) can be taken together during classification model training. An exemplary method of training a classification model is described below. Here, the process of obtaining the final classification result by weighting each initial classification result can be realized by, for example, a fully connected layer of a convolutional neural network model.

上述のように、最終分類結果Classは、初期分類結果Classcと同様の、音声イベントが各所定イベントクラスに属する確率を示す1次元ベクトルの形式を有しても良い。それ相応に、例えば、最終分類結果の各確率のうち、所定閾値よりも大きい確率のイベントクラスを入力信号に対しての分類の最終クラスとしても良い。また、最終分類結果Classの各確率が全て所定閾値よりも小さいときに、入力された信号をノイズ又は未知クラスとして認識しても良い。 As mentioned above, the final classification result Class may have the form of a one-dimensional vector indicating the probability that an audio event belongs to each given event class, similar to the initial classification result Class c . Correspondingly, for example, among the probabilities of the final classification results, the event class with a probability greater than a predetermined threshold may be the final class for classification of the input signal. Further, when each probability of the final classification result Class is all smaller than a predetermined threshold value, the input signal may be recognized as noise or an unknown class.

以上、図1乃至図3を基に、本発明の実施例における信号処理方法の1つの例示的な処理フローを説明した。本実施例における信号処理方法を用いることにより、周波数サブバンドの音声イベント分類への影響に基づいて、各サブバンドについて、音声信号の周波数領域の特徴に対して強化を行うことで、強化された特徴に基づいて、より正確な分類結果を得ることができる。 An exemplary processing flow of the signal processing method according to the embodiment of the present invention has been described above based on FIGS. 1 to 3. FIG. By using the signal processing method in this embodiment, for each sub-band, based on the effect of the frequency sub-band on the audio event classification, the enhanced Based on the features, more accurate classification results can be obtained.

続いて、図3に示す分類モデルの訓練プロセスを簡単に説明する。なお、当業者が理解すべきは、分類モデルの訓練がその応用プロセスと一対一対応するということである。よって、ここでは、両者の相違点のみについて説明を行う。 Next, we briefly describe the training process of the classification model shown in FIG. It should be understood by those skilled in the art that the training of a classification model corresponds one-to-one with its application process. Therefore, only the points of difference between the two will be described here.

一例として、音声イベントのクラスを表すラベルが付けられた訓練音声データの時間周波数領域信号を用いて、訓練により分類モデルを取得しても良い。例えば、L個の訓練音声データの時間周波数領域信号が、それぞれ、分類待ちの音声信号に基づいて取得されたスペクトログラムui,jと同様の形式を有するスペクトログラムvl i,jを採用しても良く、そのうち、lは、1≦l≦Lであり、訓練データの順番号を示し、Lは、訓練データの総数でり、また、各訓練データには、各自の音声イベントのクラスを示すLabellが付けられている。 As an example, a classification model may be obtained by training using time-frequency domain signals of training audio data labeled to represent classes of audio events. For example, even if the L training speech data time-frequency domain signals each adopt a spectrogram v l i,j having a similar form to the spectrogram u i,j obtained based on the speech signal awaiting classification. Well, l is 1≤l≤L, which indicates the order number of training data, L is the total number of training data, and each training data has a Label indicating its own audio event class. l is attached.

図1乃至図3に基づいて説明した処理と類似した方式で、訓練音声データのスペクトログラムvl i,jに対して、周波数方向上のN個のサブバンドに従って分割を行うこで、N個のサブバンドに対応する訓練サブバンド信号vl i,j1(0≦i≦I、0≦j1≦J1)、…,vl i,jn-2(0≦i≦I、0≦jn-2≦JN-2)、vl i,jn-1(0≦i≦I、0≦jn-1≦JN-1)、vl i,jn(0≦i≦I、0≦jn≦JN)を得ることができ、そのうち、Nは、1よりも大きい自然数であり、J1、…、JN-2、JN-1、JNは、各サブバンドの境界における周波数である。 In a manner similar to the processing described based on FIGS. 1 to 3, the spectrogram v l i,j of the training speech data is divided according to N subbands in the frequency direction to obtain N training subband signals v l i,j1 (0≤i≤I, 0≤j1≤J1 ) , ..., v l i,jn-2 (0≤i≤I, 0≤jn -2 ≤ J N-2 ), v l i,jn-1 (0 ≤ i ≤ I, 0 ≤ j n-1 ≤ J N-1 ), v l i, jn (0 ≤ i ≤ I, 0 ≤ j n ≤ J N ), where N is a natural number greater than 1, and J 1 , ..., J N-2 , J N-1 , J N are is the frequency.

好ましくは、N個のサブバンドのような複数のサブバンドが周波数方向上で均一に分割されても良い。オプションとして、N個のサブバンドのような複数のサブバンドが周波数方向上で音声イベントの周波数についての先験的知識に基づいて分割されても良い。なお、当業者が理解すべきは、訓練音声データに用いられるサブバンド分割と、分類待ち音声データに用いられるサブバンド分割とが一致するということである。 Preferably, a plurality of subbands, such as N subbands, may be evenly divided in the frequency direction. Optionally, multiple sub-bands, such as N sub-bands, may be divided in the frequency direction based on a priori knowledge of the frequencies of the audio events. It should be appreciated by those skilled in the art that the subband division used for the training speech data is identical to the subband division used for the speech data awaiting classification.

続いて、取得された訓練音声データのサブバンド信号vl i,j1、…、vl i,jn-2、vl i,jn-1、vl i,jnを分類モデルに入力し、分類モデルを用いて音声信号に含まれる音声イベントのクラスを確定し、そして、分類モデルにより確定されたクラスと、真のクラスとの間の差を最小化することで、分類モデルの各パラメータ、例えば、サブバンド信号に重みを付けるための活性化関数のパラメータ、各サブバンドモデルの初期分類結果の重みなどのパラメータをを取得する。 Subsequently, the obtained training speech data subband signals v l i ,j1 , . Each parameter of the classification model, e.g. , the parameters of the activation function for weighting the subband signals, and the weights of the initial classification results for each subband model.

より具体的には、訓練される分類モデルでは、各サブバンドモデルMcが、活性化関数fexcを用いて、対応するサブバンドcの音声イベント分類への影響を示し、そのうち、活性化関数fexcの入力が、対応する訓練サブバンド信号vl i,jcの強度Zl c(例えば、公式(2)と類似した方式で取得され得る)であり、出力が、該訓練サブバンド信号の重みsl cであり、これにより、公式(1)と同様の方式で重み付け済みの訓練サブバンド信号

Figure 0007283375000006

を得ることができる。 More specifically, in the classification model being trained, each subband model M c indicates the effect of the corresponding subband c on speech event classification with an activation function fex c , of which the activation function The input of fex c is the intensity Z l c of the corresponding training subband signal v l i,jc (which can be obtained, for example, in a manner similar to formula (2)), and the output is the training subband signal The weights sl c , which gives the weighted training subband signal
Figure 0007283375000006

can be obtained.

重みが付けられた訓練サブバンド信号
(外4)

Figure 0007283375000007

に基づいて、各サブバンドモデルM1、M2、…、MNは各自、音声イベントに関する初期分類結果Classl 1、Classl 2、…、Classl Nを出力し、また、分類モデルは、公式(3)と類似した方式で最終分類結果Classl=w1Classl 1+w2Classl 2+…+wNClassl Nを出力することができる。 weighted training subband signals (outer 4)
Figure 0007283375000007

each subband model M 1 , M 2 , . A final classification result Classl = w1Classl1 + w2Classl2 +...+ wN ClasslN can be output in a manner similar to formula ( 3 ).

トータルでL個の訓練データについて、L個の最終分類結果Classl(1≦l≦L)と、これらのデータの分類ラベルLabellとの間の差に基づいて損失関数を構築し、該損失関数を最小化することで分類モデルにおける各パラメータ、例えば、活性化関数fexcにおける具体的なパラメータ、公式(3)における各重みw1、w2、…、wNなどのパラメータを得ることができる。もちろん、本発明の内容を基に、当業者が各種の適切な方式で損失関数を構築してモデルにおけるパラメータの好ましい値を取得しても良いが、ここでは、その詳しい説明を省略する。 For a total of L training data, construct a loss function based on the difference between the L final classification results Class l (1 ≤ l ≤ L) and the classification label Label l of these data, the loss By minimizing the function, we can obtain each parameter in the classification model, such as the specific parameters in the activation function fex c , each weight w 1 , w 2 , . . . , w N in formula (3). can. Of course, based on the content of the present invention, those skilled in the art may construct the loss function in various appropriate ways to obtain the preferred values of the parameters in the model, but the detailed description thereof is omitted here.

続いて、図4及び図5を参照しながら、本発明の実施例における信号処理方法のもう1つの例示的な処理フローを説明する。そのうち、図4は、信号処理方法の該例示的な処理フローのフローチャートであり、図5は、図4に示す信号処理方法に応用される分類モデルを示す図である。 Next, another exemplary processing flow of the signal processing method in the embodiment of the present invention will be described with reference to FIGS. 4 and 5. FIG. 4 is a flow chart of the exemplary processing flow of the signal processing method, and FIG. 5 is a diagram showing a classification model applied in the signal processing method shown in FIG.

図4に示すように、本実施例における信号処理方法400と、図1の信号処理方法100との相違点は、信号処理方法400が図1におけるステップS101乃至S105にそれぞれ対応するサブバンド分割ステップS401、サブバンド信号入力ステップS403、音声イベント分類ステップS405の他に、音声信号に基づいて得られた時間周波数領域信号を全体として分類モデルに入力するための信号全体入力ステップS404をさらに含むことにある。図5に示すように、本実施例に採用される分類モデルと、図3に示す分類モデルとの相違点は、時間周波数領域信号全体に対応する全体モデルM0をさらに含むことにあり、該全体モデルM0は、全体として入力された時間周波数領域信号ui,jに基づいて、音声イベントに関する初期分類結果Class0を出力し、分類モデルは、複数のサブバンドモデルM1、M2、…、MNの初期分類結果Class1、Class2、…、ClassN及び全体モデルM0の初期分類結果Class0に基づいて、音声イベントに関する最終分類結果Class’を出力する。分類モデルに全体モデルを増設することにより、本実施例は、サブバンド特徴の強化を行うと同時に、各サブバンド間の互いに相関する情報を保留し、分類モデルの分類正確度をより一層向上させることができる。 As shown in FIG. 4, the difference between the signal processing method 400 in this embodiment and the signal processing method 100 in FIG. In addition to S401, subband signal input step S403 and speech event classification step S405, further comprising a signal overall input step S404 for inputting the time-frequency domain signal obtained based on the speech signal as a whole into the classification model. be. As shown in FIG. 5, the difference between the classification model adopted in this embodiment and the classification model shown in FIG . A global model M 0 outputs an initial classification result Class 0 for speech events based on the input time-frequency domain signal u i,j as a whole, and the classification model comprises a plurality of sub-band models M 1 , M 2 , , MN 's initial classification results Class 1 , Class 2 , . By adding an overall model to the classification model, this embodiment enhances the subband features while retaining the correlative information between each subband, further improving the classification accuracy of the classification model. be able to.

上述の相違点以外に、本実施例に係る画像処理方法400における他のステップS401、S403、S405が、図2に示す画像処理方法100の対応するステップS101、S103、S105とほぼ同じであり又は類似しており、また、採用される図5の分類モデルにおける各サブバンドモデルも、図3に示す対応するサブバンドモデルとほぼ同様である。よって、以下、図1乃至図3を参照して説明した実施例の基に、本実施例中の異なる点のみについて説明する。 Other than the above differences, the other steps S401, S403, S405 in the image processing method 400 according to this embodiment are substantially the same as the corresponding steps S101, S103, S105 in the image processing method 100 shown in FIG. Similarly, each subband model in the classification model of FIG. 5 employed is also substantially similar to the corresponding subband model shown in FIG. Therefore, hereinafter, based on the embodiment described with reference to FIGS. 1 to 3, only the differences in this embodiment will be described.

一例として、本実施例に採用される全体モデルM0は、サブバンドモデルM1、M2、…、MNと同様に、若干個の畳み込み層、プーリンング層などを含む畳み込みニューラルネットワークの一般的な構成の簡単なニューラルネットワークにより実現することができる。換言すると、分割されない全体としてのスペクトログラム形式のような全体としての時間周波数領域信号を処理するための全体モデルは、画像処理のための、畳み込みニューラルネットワークに基づく分類器を採用し、画像信号を分類する方式と同様の方式で、スペクトログラム形式の時間領域信号に対して分類を行うことができる。図5に示すように、全体モデルM0とサブバンドモデルM1、M2、…、MNとの相違点は、全体モデルM0が直接、重みが付けられないスペクトログラムに基づいて初期分類結果Class0を出力し得ることにある。 As an example, the global model M 0 adopted in this embodiment is a generalized convolutional neural network including several convolutional layers, pooling layers, etc., as well as the subband models M 1 , M 2 , . It can be realized by a simple neural network with a simple configuration. In other words, the global model for processing global time-frequency domain signals, such as the undivided global spectrogram form, employs a convolutional neural network-based classifier for image processing to classify the image signal. Classification can be performed on time-domain signals in spectrogram form in a manner similar to that used to do so. As shown in Fig . 5, the difference between the global model M 0 and the subband models M 1 , M 2 , . It is to be able to output Class 0 .

図5に示すような分類モデルでは、以下の公式(4)を用いて最終分類結果を得ることができる。
Class’=w1Class1+w2Class2+…+wNClassN+w0Class0 公式(4)
For a classification model such as that shown in Figure 5, the following formula (4) can be used to obtain the final classification result.
Class'=w 1 Class 1 +w 2 Class 2 +…+w N Class N +w 0 Class 0 formula (4)

公式(4)では、公式(3)に比べ、全体モデルM0の初期分類結果Class0及び対応する重み係数w0が追加されている。 In formula (4), compared with formula (3), the initial classification result Class 0 of the global model M0 and the corresponding weighting factor w0 are added.

図5に示すような分類モデルについて、図3に示す分類モデルと類似した訓練方式を採用しても良く、即ち、共同訓練より、全体モデルM0及びサブバンドモデルM1、M2、…、MNを含む全体としての分類モデルにおける各パラメータを取得することができる。 For the classification model as shown in FIG . 5 , a training scheme similar to the classification model shown in FIG. Each parameter in the classification model as a whole including M N can be obtained.

オプションとして、以下の公式(5)により最終分類結果を得ることができる。
Class’’=Class+λClass0 公式(5)
Optionally, the final classification result can be obtained by formula (5) below.
Class''=Class+λClass 0 formula (5)

そのうち、Classは、図3を基に説明した公式(3)により取得された分類結果であり、即ち、最終分類結果は、以下の公式(6)により表すことができる。 Among them, Class is the classification result obtained by formula (3) explained based on FIG. 3, that is, the final classification result can be expressed by the following formula (6).

Class’’=w1Class1+w2Class2+…+wNClassN+λClass0 公式(6)
これにより、一方では、図3を参照して説明した方式で、全体モデルM0を含まないモデルの部分を単独で訓練することができ、他方では、全体モデルM0を単独で訓練することができる。最後に、2つの部分の各自の出力結果を融合し、訓練により、全体モデルM0のこの時の重み係数λ(即ち、全体モデルM0の、分類モデル中で全体モデルM0を含まないモデルの部分に対しての重み係数)を得ることができるが、ここでは、その詳細な説明を省略する。
Class''=w 1 Class 1 +w 2 Class 2 +…+w N Class N +λClass 0 formula (6)
This allows, on the one hand, the parts of the model that do not contain the global model M0 to be trained alone, in the manner described with reference to Fig. 3, and on the other hand, the global model M0 to be trained alone. can. Finally, the respective output results of the two parts are fused, and the weighting coefficient λ of the global model M 0 at this time (that is, the model that does not include the global model M 0 in the classification model ) can be obtained, but detailed description thereof is omitted here.

以上、図4及び図5に基づいて本発明の実施例における信号処理方法のもう1つの例示的な処理フローを説明した。本実施例における信号処理方法により、分類モデルに全体モデルを増やすことで、サブバンド特徴の強化を行うと同時に、各サブバンド間の互いに相関する情報を保留し、分類モデルの分類正確度をより一層向上させることができる。 Another exemplary processing flow of the signal processing method according to the embodiment of the present invention has been described above based on FIGS. 4 and 5. FIG. According to the signal processing method of the present embodiment, the classification model increases the overall model to enhance the sub-band features, while at the same time retaining the correlated information between each sub-band, so that the classification accuracy of the classification model is improved. It can be improved further.

本発明のもう1つの側面では、信号処理装置が提供される。図6は、本発明の実施例における信号処理装置の1つの例示的な構成図である。 Another aspect of the present invention provides a signal processing apparatus. FIG. 6 is an exemplary configuration diagram of a signal processing device in an embodiment of the present invention.

図6に示すように、信号処理装置600は、以下のものを含んでも良い。 As shown in FIG. 6, the signal processing device 600 may include the following.

サブバンド分割ユニット601:音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
サブバンド信号入力ユニット603:取得されたサブバンド信号を訓練済みの分類モデルに入力し;
音声イベント分類ユニット605:分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定する。
Sub-band division unit 601: dividing the time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
subband signal input unit 603: inputting the obtained subband signals into a trained classification model;
Audio event classification unit 605: Determines the classes of audio events contained in the audio signal using a classification model.

本実施例における信号処理装置では、採用される分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、そのうち、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、そして、重みが付けられたサブバンド信号に基づいて音声イベントに関する初期分類結果を出力する。それ相応に、分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 In the signal processing device of this embodiment, the classification model employed includes a plurality of subband models respectively corresponding to each subband, among which each subband model is obtained by training for the corresponding subband Weighting the input subband signals based on their impact on audio event classification, and outputting an initial classification result for the audio event based on the weighted subband signals. Correspondingly, the classification model outputs a final classification result for the speech event based on the initial classification results of the multiple subband models.

上述の信号処理装置及びその各ユニットは、例えば、図1乃至図3を基に説明した信号処理方法及びその各ステップの操作及び/又は処理を実行して同様の効果を実現することができる。ここでは、重複説明を省略する。 The above-described signal processing apparatus and each unit thereof can perform the operation and/or processing of the signal processing method and each step thereof described with reference to FIGS. 1 to 3, for example, to achieve similar effects. Duplicate description is omitted here.

図7は、本発明の実施例における信号処理装置のもう1つの例示的な構成図である。 FIG. 7 is another exemplary block diagram of the signal processing device in the embodiment of the present invention.

図7に示すように、本実施例における信号処理装置700と、図6の信号処理装置600との相違点は、信号処理装置700が図6に示すユニット601乃至605にそれぞれ対応するサブバンド分割ユニット701、サブバンド信号入力ユニット703、音声イベント分類ユニット705の他に、音声信号に基づいて得られた時間周波数領域信号を全体として分類モデルに入力するための信号全体入力ユニット704をさらに含むことにある。それ相応に、本実施例に採用される分類モデルは、時間周波数領域信号全体に対応する全体モデルをさらに含み、該全体モデルは、全体として入力された時間周波数領域信号に基づいて、音声イベントに関する初期分類結果を出力し、分類モデルは、複数のサブバンドモデルの初期分類結果及び全体モデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 As shown in FIG. 7, the difference between the signal processing device 700 in this embodiment and the signal processing device 600 in FIG. Besides the unit 701, the sub-band signal input unit 703 and the audio event classification unit 705, further comprising an overall signal input unit 704 for inputting the time-frequency domain signal obtained based on the audio signal into the classification model as a whole. It is in. Correspondingly, the classification model employed in the present embodiment further includes a global model corresponding to the entire time-frequency domain signal, which global model is based on the input time-frequency domain signal as a whole and relates to the audio event. Outputting initial classification results, the classification model outputs final classification results for the speech event based on the initial classification results of the multiple sub-band models and the initial classification results of the overall model.

上述の信号処理装置及びその各ユニットは、例えば、図4及び図5に基づいて説明した信号処理方法及びその各ステップの操作及び/又は処理を実行して同様の効果を達成することができる。ここでは、重複説明を省略する。 The above-described signal processing apparatus and each unit thereof can perform the operation and/or processing of the signal processing method and each step thereof described based on FIGS. 4 and 5, for example, to achieve similar effects. Duplicate description is omitted here.

本発明の他の側面では、情報処理装置が提供される。該情報処理装置は、本発明の実施例における信号処理方法を実現することができ、それは、処理器を含み、該処理器は、次のように構成され、即ち、音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び、分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定するように構成される。そのうち、分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、そして、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、また、分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 Another aspect of the present invention provides an information processing apparatus. The information processing device can implement the signal processing method in the embodiments of the present invention, which includes a processor, which is configured as follows: dividing the obtained time-frequency domain signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band; inputting the obtained sub-band signal into a trained classification model and, using the classification model, configured to determine classes of audio events contained in the audio signal. Wherein, the classification model includes a plurality of subband models respectively corresponding to each subband, and each subband model is input based on the effect of the corresponding subband on speech event classification obtained by training. and outputting an initial classification result for the speech event based on the weighted subband signals, and the classification model based on the initial classification results of the plurality of subband models. output the final classification result for the audio event.

情報処理装置の処理器は、例えば、図1乃至図7を基に説明した信号処理方法及びその各ステップの操作及び/又は処理を実行して同様の効果を実現することができる。ここでは、重複説明を省略する。 The processor of the information processing apparatus can implement the same effect by executing the signal processing method and the operation and/or processing of each step described with reference to FIGS. 1 to 7, for example. Duplicate description is omitted here.

一例として、音声信号に基づいて得られた時間周波数領域信号は、スペクトログラムを含んでも良い。 As an example, a time-frequency domain signal obtained based on an audio signal may include a spectrogram.

好ましくは、各サブバンドモデルは、訓練により取得される活性化関数を用いて、対応するサブバンドの音声イベント分類への影響を表し、そのうち、前記活性化関数の入力が、対応するサブバンド信号の強度であり、前記活性化関数の出力が、該サブバンド信号の重みである。 Preferably, each subband model uses an activation function obtained by training to represent the effect of the corresponding subband on speech event classification, wherein the input of said activation function is the corresponding subband signal and the output of the activation function is the weight of the subband signal.

好ましくは、複数のサブバンドは、周波数方向上で均一に分割される。 Preferably, the plurality of subbands are evenly divided in the frequency direction.

オプションとして、複数のサブバンドは、周波数方向上で音声イベントの周波数について先験的知識に基づいて分割される。 Optionally, the multiple subbands are divided in frequency direction based on a priori knowledge of the frequency of the audio event.

一例として、分類モデルでは、各初期分類結果に重みを付けることで、最終分類結果を取得する。 As an example, a classification model weights each initial classification result to obtain a final classification result.

一例として、分類モデルは、畳み込みニューラルネットワークに基づくモデルを含んでも良い。 As an example, the classification models may include models based on convolutional neural networks.

一例として、音声イベントのクラスを表すラベルが付けられた訓練音声データの時間周波数領域信号を用いて、訓練により分類モデルを取得することができる。 As an example, a classification model can be obtained by training using time-frequency domain signals of training audio data labeled to represent classes of audio events.

1つの好適な実施例では、該処理器は、さらに、音声信号に基づいて得られた時間周波数領域信号全体を前記分類モデルに入力するように構成されて良く、そのうち、前記分類モデルは、さらに、時間周波数領域信号全体に対応する全体モデルを含み、該全体モデルは、全体として入力される時間周波数領域信号に基づいて、音声イベントに関する初期分類結果を出力し、また、前記分類モデルは、複数のサブバンドモデルの初期分類結果及び全体モデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する。 In one preferred embodiment, the processor may be further configured to input the entire time-frequency domain signal obtained based on the audio signal into the classification model, wherein the classification model further comprises , a global model corresponding to the entire time-frequency domain signal, the global model outputting an initial classification result for the audio event based on the input time-frequency domain signal as a whole, and the classification model comprising a plurality of outputs a final classification result for the speech event based on the initial classification results of the subband models of and the initial classification results of the overall model.

図8は、本発明の実施例における信号処理方法及び装置を実現し得るハードウェアの構成図である。 FIG. 8 is a configuration diagram of hardware that can implement the signal processing method and apparatus in the embodiment of the present invention.

図8では、中央処理装置(CPU)801は、ROM 802に記憶されているプログラム、又は、記憶部808からRAM 803にロードされているプログラムに基づいて、各種の処理を行う。RAM 803には、必要に応じて、CPU 801が各種の処理を実行するときに必要なデータを記憶しても良い。なお、CPU 801、ROM 802及びRAM 803は、バス804を経由して接続される。また、入力/出力インターフェース805も、バス804に接続される。 In FIG. 8, a central processing unit (CPU) 801 performs various processes based on programs stored in a ROM 802 or programs loaded from a storage unit 808 to a RAM 803 . The RAM 803 may store data required when the CPU 801 executes various processes as required. Note that the CPU 801 , ROM 802 and RAM 803 are connected via a bus 804 . Input/output interface 805 is also connected to bus 804 .

次のような部品は、入力/出力インターフェース805に接続され、即ち、入力部806(キーボード、マウスなどを含む)、出力部807(表示器、例えば、CRT、LCDなど、及びスピーカーなどを含む)、記憶部808(ハードディスクなどを含む)、及び通信部809(ネットワーク・インターフェース・カード、例えば、LANカード、モデムなどを含む)というような部品である。通信部809は、ネットワーク、例えば、インターネットを経由して通信処理を行う。なお、必要に応じて、ドライブ810を入力/出力インターフェース805に接続させても良い。取り外し可能な媒体811、例えば、磁気ディスク、光ディスク、光磁気ディスク、半導体記憶器などは、必要に応じて、ドライブ810にセットされ、その中から読み出されたコンピュータプログラムが必要に応じて記憶部808にインスタールされるようにさせることができる。 The following components are connected to the input/output interface 805: input section 806 (including keyboard, mouse, etc.), output section 807 (including display devices, such as CRT, LCD, etc., and speakers, etc.). , a storage unit 808 (including a hard disk, etc.), and a communication unit 809 (including a network interface card, such as a LAN card, a modem, etc.). A communication unit 809 performs communication processing via a network such as the Internet. Note that the drive 810 may be connected to the input/output interface 805 if desired. A removable medium 811, for example, a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor storage device, or the like, is set in the drive 810 as necessary, and a computer program read from it is stored in the storage unit as necessary. Can be made to be installed on the 808.

ソフトウェアにより上述の一連の処理を実現する場合、ネットワーク、例えば、インターネット、又は記憶媒体、例えば、取り外し可能な媒体811から、ソフトウェアを構成するプログラムをインストールすることができる。 When software implements the series of processes described above, a program that constitutes the software can be installed from a network such as the Internet or a storage medium such as the removable medium 811 .

なお、当業者が理解すべきは、このような記憶媒体が図8に示すような取り外し可能な媒体811に限定されないということである。取り外し可能な媒体811は、例えば、磁気ディスク(フロッピーディスク(登録商標)を含む)、ディスク(CD-ROM及びDVDを含む)、光磁気ディスク(MD(登録商標)を含む)、及び半導体記憶器を含む。又はいは、記憶媒体は、ROM 802、記憶部808中のハードディスクなどであっても良い。 It should be appreciated by those skilled in the art that such storage media is not limited to removable media 811 as shown in FIG. The removable medium 811 includes, for example, magnetic disks (including floppy disks (registered trademark)), disks (including CD-ROMs and DVDs), magneto-optical disks (including MD (registered trademark)), and semiconductor storage devices. including. Alternatively, the storage medium may be ROM 802, a hard disk in storage unit 808, or the like.

また、本発明の実施例などによる装置、方法などは、ソフトウェアにより実現されても良く、ハードェアにより実現されてもよく、ハードェア及びソフトウェアの組み合わせにより実現されても良い。本発明は、このようなコンピュータ可読プログラムにも関し、即ち、前記プログラムは、ロジック部品により実行されるときに、前記ロジック部品に、上述の装置又は構成要素を実現させることができ、又は、前記ロジック部品に、上述の方法又はそのステップを実現させることができる。さらに、本発明は、上述のプログラムを記憶した記憶媒体、例えば、ハードディスク、磁気ディスク、光ディスク、DVD、フレッシュメモリなどにも関する。 Also, the apparatus, method, etc. according to the embodiments of the present invention may be implemented by software, hardware, or a combination of hardware and software. The invention also relates to such a computer readable program, i.e. said program, when executed by a logic component, is capable of causing said logic component to implement the device or component described above, or Logic components may implement the above methods or steps thereof. Furthermore, the present invention also relates to a storage medium storing the above program, such as a hard disk, magnetic disk, optical disk, DVD, fresh memory, and the like.

本発明は、さらに、記憶媒体を提供し、その中には、マシン可読指令コードが記憶されており、前記指令コードは、マシンにより読み出されて実行されるときに、マシンに、上述の実施例における信号処理方法を実行させることができる。前記指令コードは、指令コード部分を含み、それは、次のような処理を行うために用いられ、即ち、所定の素材集における要素からなる認証シーケンスをランダムに生成し;テスト待ちユーザが語音方式で認証シーケンスを入力するように促し、認証待ち語音シーケンスを取得し;認証待ち語音シーケンスから語音特徴を抽出し;及び、抽出された語音特徴を判別モデルに入力し、テスト待ちユーザが所定の登録ユーザであるかを判断する。そのうち、判別モデルは、登録モデルベースから選択された、それぞれ認証シーケンスの各要素に対応する複数の登録語音モデルに基づくものであり、そのうち、登録モデルベースは、それぞれ所定の素材集における各要素に対応する登録語音モデルを含み、各要素の登録語音モデルは、該要素に対応する所定のユーザの語音入力から抽出される語音特徴に基づいて単独で訓練されたものである。 The present invention further provides a storage medium having stored therein machine-readable instruction code, said instruction code, when read and executed by the machine, to instruct the machine to perform the above-described operations. The signal processing method in the example can be implemented. Said command code includes a command code portion, which is used to: randomly generate an authentication sequence consisting of elements in a given collection; obtaining a verification-waiting speech sound sequence; extracting speech features from the verification-waiting speech sound sequence; to determine whether Among them, the discriminant model is based on a plurality of enrolled speech models, each corresponding to each element of the authentication sequence, selected from the enrolled model base, wherein the enrolled model base is based on each element in the predetermined material collection. Each element's enrollment speech model, including a corresponding enrollment speech model, was independently trained based on speech features extracted from a given user's speech input corresponding to the element.

また、以上の実施例などに関し、さらに以下のように付記を開示する。 In addition, additional remarks are disclosed as follows with respect to the above-described examples and the like.

(付記1)
処理器を含む情報処理装置であって、
前記処理器は、
音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び
分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定するように構成され、
分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、そして、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、
分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する、装置。
(Appendix 1)
An information processing device including a processor,
The processor is
dividing a time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
inputting the obtained subband signals into a trained classification model; and using the classification model to determine classes of audio events contained in the audio signal,
The classification model includes a plurality of sub-band models respectively corresponding to each sub-band, each sub-band model classifying the input sub-band based on the effect of the corresponding sub-band on speech event classification obtained by training. weighting the band signals and outputting an initial classification result for the audio event based on the weighted subband signals;
The apparatus, wherein the classification model outputs a final classification result for the audio event based on initial classification results of the multiple subband models.

(付記2)
付記1に記載の情報処理装置であって、
音声信号に基づいて得られた時間周波数領域信号がスペクトログラムを含む、装置。
(Appendix 2)
The information processing device according to Supplementary Note 1,
Apparatus, wherein the time-frequency domain signal obtained based on the audio signal comprises a spectrogram.

(付記3)
付記1又は2に記載の情報処理装置であって、
各サブバンドモデルが、訓練により取得される活性化関数を用いて、対応するサブバンドの音声イベント分類への影響を表し、
活性化関数の入力が、対応するサブバンド信号の強度であり、活性化関数の出力が、該サブバンド信号の重みである、装置。
(Appendix 3)
The information processing device according to Appendix 1 or 2,
each subband model using an activation function obtained by training to represent the impact of the corresponding subband on speech event classification;
An apparatus wherein the input of an activation function is the intensity of the corresponding subband signal and the output of the activation function is the weight of said subband signal.

(付記4)
付記1又は2に記載の情報処理装置であって、
前記処理器は、さらに、音声信号に基づいて得られた時間周波数領域信号全体を分類モデルに入力するように構成され、
分類モデルは、さらに、時間周波数領域信号全体に対応する全体モデルを含み、該全体モデルは、全体として入力される時間周波数領域信号に基づいて、音声イベントに関する初期分類結果を出力し、前記分類モデルは、複数のサブバンドモデルの初期分類結果及び全体モデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する、装置。
(Appendix 4)
The information processing device according to Appendix 1 or 2,
the processor is further configured to input an entire time-frequency domain signal obtained based on the audio signal into a classification model;
The classification model further includes a global model corresponding to the entire time-frequency domain signal, the global model outputting an initial classification result for the audio event based on the input time-frequency domain signal as a whole, the classification model outputs a final classification result for the speech event based on the initial classification results of the multiple sub-band models and the initial classification results of the overall model.

(付記5)
付記1又は2に記載の情報処理装置であって、
複数のサブバンドが周波数方向上で均一に分割される、装置。
(Appendix 5)
The information processing device according to Appendix 1 or 2,
A device in which multiple subbands are evenly divided in the frequency direction.

(付記6)
付記1又は2に記載の情報処理装置であって、
複数のサブバンドが、周波数方向上で音声イベントの周波数についての先験的知識に基づいて分割される、装置。
(Appendix 6)
The information processing device according to Appendix 1 or 2,
An apparatus in which a plurality of subbands are divided in the frequency direction based on a priori knowledge of frequencies of audio events.

(付記7)
付記1又は2に記載の情報処理装置であって、
分類モデルでは、各初期分類結果に重みを付けることで最終分類結果を取得する、装置。
(Appendix 7)
The information processing device according to Appendix 1 or 2,
In a classification model, a device that weights each initial classification result to obtain a final classification result.

(付記8)
付記1又は2に記載の情報処理装置であって、
分類モデルが畳み込みニューラルネットワークに基づくモデルを含む、装置。
(Appendix 8)
The information processing device according to Appendix 1 or 2,
An apparatus wherein the classification model comprises a model based on convolutional neural networks.

(付記9)
付記1又は2に記載の情報処理装置であって、
音声イベントのクラスを表すラベルが付けられた訓練音声データの時間周波数領域信号を用いて、訓練により分類モデルを取得する、装置。
(Appendix 9)
The information processing device according to Appendix 1 or 2,
An apparatus for obtaining a classification model by training using time-frequency domain signals of training audio data labeled to represent classes of audio events.

(付記10)
信号処理方法であって、
音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び
分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定することを含み、
分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、
分類モデルは、複数のサブバンドモデルの初期分類結果に基づいて音声イベントに関する最終分類結果を出力する、方法。
(Appendix 10)
A signal processing method comprising:
dividing a time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
inputting the obtained subband signals into a trained classification model; and using the classification model to determine classes of audio events contained in the audio signal;
The classification model includes a plurality of sub-band models respectively corresponding to each sub-band, each sub-band model classifying the input sub-band based on the effect of the corresponding sub-band on speech event classification obtained by training. weighting the band signal and outputting an initial classification result for the audio event based on the weighted subband signal;
The method, wherein the classification model outputs a final classification result for the audio event based on initial classification results of the multiple subband models.

(付記11)
付記10に記載の信号処理方法であって、
音声信号に基づいて得られた時間周波数領域信号がスペクトログラムを含む、方法。
(Appendix 11)
The signal processing method according to Appendix 10,
A method, wherein the time-frequency domain signal obtained based on the audio signal comprises a spectrogram.

(付記12)
付記10又は11に記載の信号処理方法であって、
各サブバンドモデルが、訓練により取得される活性化関数を用いて、対応するサブバンドの音声イベント分類への影響を表し、
活性化関数の入力が、対応するサブバンド信号の強度であり、活性化関数の出力が、該サブバンド信号の重みである、方法。
(Appendix 12)
The signal processing method according to Appendix 10 or 11,
each subband model using an activation function obtained by training to represent the impact of the corresponding subband on speech event classification;
A method wherein the input of an activation function is the intensity of the corresponding subband signal and the output of the activation function is the weight of the subband signal.

(付記13)
付記10又は11に記載の信号処理方法であって、
音声信号に基づいて得られた時間周波数領域信号全体を分類モデルに入力することをさらに含み、
分類モデルは、さらに、時間周波数領域信号全体に対応する全体モデルを含み、該全体モデルは、全体として入力される時間周波数領域信号に基づいて、音声イベントに関する初期分類結果を出力し、分類モデルは、複数のサブバンドモデルの初期分類結果及び全体モデルの初期分類結果に基づいて、音声イベントに関する最終分類結果を出力する、方法。
(Appendix 13)
The signal processing method according to Appendix 10 or 11,
further comprising inputting the entire time-frequency domain signal obtained based on the audio signal into a classification model;
The classification model further includes a global model corresponding to the entire time-frequency domain signal, the global model outputting an initial classification result for the audio event based on the input time-frequency domain signal as a whole, the classification model comprising: , based on the initial classification results of the multiple sub-band models and the initial classification results of the overall model, outputting a final classification result for the speech event.

(付記14)
付記10又は11に記載の信号処理方法であって、
複数のサブバンドが周波数方向上で均一に分割される、方法。
(Appendix 14)
The signal processing method according to Appendix 10 or 11,
A method in which multiple subbands are evenly divided in the frequency direction.

(付記15)
付記10又は11に記載の信号処理方法であって、
複数のサブバンドが周波数方向上で音声イベントの周波数についての先験的知識に基づいて分割される、方法。
(Appendix 15)
The signal processing method according to Appendix 10 or 11,
A method wherein multiple subbands are divided in the frequency direction based on a priori knowledge about the frequency of the audio event.

(付記16)
付記10又は11に記載の信号処理方法であって、
分類モデルでは、各初期分類結果に重みを付けることで最終分類結果を取得する、方法。
(Appendix 16)
The signal processing method according to Appendix 10 or 11,
In a classification model, the method by which each initial classification result is weighted to obtain a final classification result.

(付記17)
付記10又は11に記載の信号処理方法であって、
分類モデルが畳み込みニューラルネットワークに基づくモデルを含む、方法。
(Appendix 17)
The signal processing method according to Appendix 10 or 11,
A method, wherein the classification model includes a model based on a convolutional neural network.

(付記18)
付記10又は11に記載の信号処理方法であって、
音声イベントのクラスを示すラベルが付けられた訓練音声データの時間周波数領域信号を用いて、訓練により分類モデルを取得する、方法。
(Appendix 18)
The signal processing method according to Appendix 10 or 11,
A method of obtaining a classification model by training using time-frequency domain signals of training audio data labeled to indicate classes of audio events.

(付記19)
マシン(コンピュータ)可読指令コードが記憶されている記憶媒体であって、
前記指令コードは、マシンにより読み出されて実行されるときに、マシンに、信号処理方法を実行させることができ、この信号処理方法は、付記1に記載の信号処理方法である、記憶媒体。
(Appendix 19)
A storage medium having machine (computer) readable instruction code stored thereon,
A storage medium, wherein the instruction code, when read and executed by a machine, causes the machine to execute a signal processing method, which is the signal processing method of claim 1.

以上、本発明の好ましい実施形態を説明したが、本発明はこの実施形態に限定されず、本発明の趣旨を離脱しない限り、本発明に対するあらゆる変更は、本発明の技術的範囲に属する。 Although the preferred embodiment of the present invention has been described above, the present invention is not limited to this embodiment, and all modifications to the present invention fall within the technical scope of the present invention as long as they do not depart from the gist of the present invention.

Claims (10)

処理器を含む情報処理装置であって、
前記処理器は、
音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び
前記分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定するように構成され、
前記分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、
前記分類モデルは、前記複数のサブバンドモデルの初期分類結果に基づいて、前記音声イベントに関する最終分類結果を出力する、装置。
An information processing device including a processor,
The processor is
dividing a time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
inputting the acquired subband signals into a trained classification model; and using the classification model to determine classes of audio events contained in the audio signal,
The classification model includes a plurality of sub-band models respectively corresponding to each sub-band, each sub-band model is input based on the impact of the corresponding sub-band on speech event classification obtained by training weighting the subband signals and outputting an initial classification result for the audio event based on the weighted subband signals;
The apparatus of claim 1, wherein the classification model outputs a final classification result for the audio event based on initial classification results of the plurality of subband models.
請求項1に記載の情報処理装置であって、
前記音声信号に基づいて得られた時間周波数領域信号がスペクトログラムを含む、装置。
The information processing device according to claim 1,
An apparatus as claimed in claim 1, wherein the time-frequency domain signal obtained based on said audio signal comprises a spectrogram.
請求項1又は2に記載の情報処理装置であって、
各サブバンドモデルが、訓練により取得される活性化関数を用いて、対応するサブバンドの音声イベント分類への影響を表し、
前記活性化関数の入力が、対応するサブバンド信号の強度であり、前記活性化関数の出力が、該サブバンド信号の重みである、装置。
The information processing device according to claim 1 or 2,
each subband model using an activation function obtained by training to represent the impact of the corresponding subband on speech event classification;
The apparatus of claim 1, wherein the input of the activation function is the intensity of the corresponding subband signal and the output of the activation function is the weight of the subband signal.
請求項1又は2に記載の情報処理装置であって、
前記処理器は、さらに、音声信号に基づいて得られた時間周波数領域信号全体を前記分類モデルに入力するように構成され、
前記分類モデルは、さらに、時間周波数領域信号全体に対応する全体モデルを含み、該全体モデルは、入力された時間周波数領域信号全体に基づいて、音声イベントに関する初期分類結果を出力し、
前記分類モデルは、前記複数のサブバンドモデルの初期分類結果及び前記全体モデルの初期分類結果に基づいて、前記音声イベントに関する最終分類結果を出力する、装置。
The information processing device according to claim 1 or 2,
the processor is further configured to input an entire time-frequency domain signal obtained based on an audio signal into the classification model;
The classification model further includes a global model corresponding to the entire time-frequency domain signal, the global model outputting an initial classification result for the audio event based on the entire input time-frequency domain signal;
The apparatus of claim 1, wherein the classification model outputs a final classification result for the speech event based on initial classification results of the plurality of sub-band models and initial classification results of the overall model.
請求項1又は2に記載の情報処理装置であって、
前記複数のサブバンドが周波数方向上で均一に分割される、装置。
The information processing device according to claim 1 or 2,
The apparatus, wherein the plurality of subbands are evenly divided in the frequency direction.
請求項1又は2に記載の情報処理装置であって、
前記複数のサブバンドが周波数方向上で音声イベントの周波数についての先験的知識に基づいて分割される、装置。
The information processing device according to claim 1 or 2,
The apparatus of claim 1, wherein the plurality of subbands are divided in the frequency direction based on a priori knowledge of frequencies of audio events.
請求項1又は2に記載の情報処理装置であって、
前記分類モデルでは、各初期分類結果に重みを付けることで最終分類結果を取得する、装置。
The information processing device according to claim 1 or 2,
The apparatus, wherein in the classification model, each initial classification result is weighted to obtain a final classification result.
請求項1又は2に記載の情報処理装置であって、
前記分類モデルが畳み込みニューラルネットワークに基づくモデルを含む、装置。
The information processing device according to claim 1 or 2,
The apparatus of claim 1, wherein the classification model comprises a model based on convolutional neural networks.
請求項1又は2に記載の情報処理装置であって、
予めラベルが付けられた訓練音声データの時間周波数領域信号を用いて、訓練により前記分類モデルを取得し、
前記ラベルが音声イベントのクラスを表す、装置。
The information processing device according to claim 1 or 2,
obtaining the classification model by training using time-frequency domain signals of pre-labeled training speech data;
The apparatus, wherein the labels represent classes of audio events.
信号処理方法であって、
音声信号に基づいて得られた時間周波数領域信号に対して、周波数方向上の複数のサブバンドに従って分割を行い、各サブバンドに対応するサブバンド信号を取得し;
取得されたサブバンド信号を訓練済みの分類モデルに入力し;及び
前記分類モデルを用いて、音声信号に含まれる音声イベントのクラスを確定することを含み、
前記分類モデルは、各サブバンドにそれぞれ対応する複数のサブバンドモデルを含み、各サブバンドモデルは、訓練により取得された、対応するサブバンドの音声イベント分類への影響に基づいて、入力されたサブバンド信号に重みを付け、重みが付けられたサブバンド信号に基づいて、音声イベントに関する初期分類結果を出力し、
前記分類モデルは、前記複数のサブバンドモデルの初期分類結果に基づいて、前記音声イベントに関する最終分類結果を出力する、方法。
A signal processing method comprising:
dividing a time-frequency domain signal obtained based on the audio signal according to a plurality of sub-bands in the frequency direction to obtain a sub-band signal corresponding to each sub-band;
inputting the obtained subband signals into a trained classification model; and using the classification model to determine classes of audio events contained in the audio signal;
The classification model includes a plurality of sub-band models respectively corresponding to each sub-band, each sub-band model is input based on the impact of the corresponding sub-band on speech event classification obtained by training weighting the subband signals and outputting an initial classification result for the audio event based on the weighted subband signals;
The method, wherein the classification model outputs a final classification result for the audio event based on initial classification results of the plurality of subband models.
JP2019232912A 2019-02-01 2019-12-24 Signal processing method and information processing device Active JP7283375B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910104232.4A CN111524536B (en) 2019-02-01 2019-02-01 Signal processing method and information processing apparatus
CN201910104232.4 2019-02-01

Publications (2)

Publication Number Publication Date
JP2020126227A JP2020126227A (en) 2020-08-20
JP7283375B2 true JP7283375B2 (en) 2023-05-30

Family

ID=71900528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019232912A Active JP7283375B2 (en) 2019-02-01 2019-12-24 Signal processing method and information processing device

Country Status (2)

Country Link
JP (1) JP7283375B2 (en)
CN (1) CN111524536B (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114501353B (en) * 2020-10-23 2024-01-05 维沃移动通信有限公司 Communication information sending and receiving method and communication equipment
CN115116469B (en) * 2022-05-25 2024-03-15 腾讯科技(深圳)有限公司 Feature representation extraction method, device, equipment, medium and program product

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267699A (en) 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method and device therefor, program recording medium therefor, and acoustic signal decoding device
WO2006004050A1 (en) 2004-07-01 2006-01-12 Nippon Telegraph And Telephone Corporation System for detection section including particular acoustic signal, method and program thereof
JP2010510534A (en) 2006-11-16 2010-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション Voice activity detection system and method
CN105122562A (en) 2013-04-22 2015-12-02 德恩及索恩两合股份有限公司 Circuit arrangement for overvoltage protection of a DC supply circuit
WO2017117234A1 (en) 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7409374B1 (en) * 2004-12-06 2008-08-05 The United States Of America As Represented By The Secretary Of The Army Explosive event discrimination method
CN101847412B (en) * 2009-03-27 2012-02-15 华为技术有限公司 Method and device for classifying audio signals
US8195034B2 (en) * 2009-04-13 2012-06-05 Texas Instruments Incorporated Low complexity event detection for video programs
CN102486920A (en) * 2010-12-06 2012-06-06 索尼公司 Audio event detection method and device
CN102799899B (en) * 2012-06-29 2014-12-10 北京理工大学 Special audio event layered and generalized identification method based on SVM (Support Vector Machine) and GMM (Gaussian Mixture Model)
US20140270241A1 (en) * 2013-03-15 2014-09-18 CSR Technology, Inc Method, apparatus, and manufacture for two-microphone array speech enhancement for an automotive environment
KR102195897B1 (en) * 2013-06-05 2020-12-28 삼성전자주식회사 Apparatus for dectecting aucoustic event, operating method thereof, and computer-readable recording medium having embodied thereon a program which when executed by a computer perorms the method
EP3275208B1 (en) * 2015-03-25 2019-12-25 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
US9805739B2 (en) * 2015-05-15 2017-10-31 Google Inc. Sound event detection
CN104916289A (en) * 2015-06-12 2015-09-16 哈尔滨工业大学 Quick acoustic event detection method under vehicle-driving noise environment
US10923137B2 (en) * 2016-05-06 2021-02-16 Robert Bosch Gmbh Speech enhancement and audio event detection for an environment with non-stationary noise
WO2017217396A1 (en) * 2016-06-16 2017-12-21 日本電気株式会社 Signal processing device, signal processing method, and computer-readable recording medium
CN108694953A (en) * 2017-04-07 2018-10-23 南京理工大学 A kind of chirping of birds automatic identifying method based on Mel sub-band parameter features
KR101969504B1 (en) * 2017-05-02 2019-04-16 서강대학교산학협력단 Sound event detection method using deep neural network and device using the method
CN107545890A (en) * 2017-08-31 2018-01-05 桂林电子科技大学 A kind of sound event recognition method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000267699A (en) 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> Acoustic signal coding method and device therefor, program recording medium therefor, and acoustic signal decoding device
WO2006004050A1 (en) 2004-07-01 2006-01-12 Nippon Telegraph And Telephone Corporation System for detection section including particular acoustic signal, method and program thereof
JP2010510534A (en) 2006-11-16 2010-04-02 インターナショナル・ビジネス・マシーンズ・コーポレーション Voice activity detection system and method
CN105122562A (en) 2013-04-22 2015-12-02 德恩及索恩两合股份有限公司 Circuit arrangement for overvoltage protection of a DC supply circuit
WO2017117234A1 (en) 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Sai Samarch R Phaye et al.,SubSpectralNet - Using Sub-Spectrogram based Convolutional Neural Networks for Acoustic Scene Classification,[online],2018年10月30日,[2023年4月10日検索], インターネット <URL: https://arxiv.org/pdf/1810.12642v1.pdf>

Also Published As

Publication number Publication date
CN111524536A (en) 2020-08-11
CN111524536B (en) 2023-09-08
JP2020126227A (en) 2020-08-20

Similar Documents

Publication Publication Date Title
Ittichaichareon et al. Speech recognition using MFCC
Su et al. Performance analysis of multiple aggregated acoustic features for environment sound classification
US20190295530A1 (en) Unsupervised non-parallel speech domain adaptation using a multi-discriminator adversarial network
US10540988B2 (en) Method and apparatus for sound event detection robust to frequency change
Schröder et al. Spectro-temporal Gabor filterbank features for acoustic event detection
JP7283375B2 (en) Signal processing method and information processing device
Alexandre-Cortizo et al. Application of fisher linear discriminant analysis to speech/music classification
US20220101859A1 (en) Speaker recognition based on signal segments weighted by quality
CN114596879B (en) False voice detection method and device, electronic equipment and storage medium
WO2020240682A1 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
JP5050698B2 (en) Voice processing apparatus and program
Silva et al. Exploring convolutional neural networks for voice activity detection
KR102314824B1 (en) Acoustic event detection method based on deep learning
Birajdar et al. Speech and music classification using spectrogram based statistical descriptors and extreme learning machine
KR20160089103A (en) Device and method for sound classification in real time
JPWO2019244298A1 (en) Attribute identification device, attribute identification method, and program
JP5974901B2 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
Li et al. Animal sound recognition based on double feature of spectrogram in real environment
Martín-Morató et al. A case study on feature sensitivity for audio event classification using support vector machines
Abidin et al. Local binary pattern with random forest for acoustic scene classification
JP5083951B2 (en) Voice processing apparatus and program
McLoughlin et al. Early detection of continuous and partial audio events using CNN
Xie et al. Investigation of acoustic and visual features for frog call classification
Cipli et al. Multi-class acoustic event classification of hydrophone data
CN113488027A (en) Hierarchical classification generated audio tracing method, storage medium and computer equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220809

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230412

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230418

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230501

R150 Certificate of patent or registration of utility model

Ref document number: 7283375

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150