TWI768589B

TWI768589B - 深度學習之節奏練習系統

Info

Publication number: TWI768589B
Application number: TW109143675A
Authority: TW
Inventors: 林俊成
Original assignee: 國立勤益科技大學
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-06-21
Also published as: TW202223879A

Abstract

本發明係提供一種深度學習之節奏練習系統，其主要包含有處理裝置及偵測比對裝置，藉由，通過該處理裝置播放具有拍點音樂，提供拍點對應練習，且同時對拍手聲與音樂進行錄音並轉換為一音頻訊號的特性，並藉由連接至該偵測比對裝置，以通過該偵測比對裝置的深度練習的演算法對錄製的音頻訊號進行運算，能有效自動偵測、比對判斷出輸入的音頻訊號是否出現拍手聲，更能進一步比對出拍手聲是否位於正確的拍點節奏上，有效提升節奏練習比對的準確性。

Description

深度學習之節奏練習系統

本發明是有關於一種節奏練習系統，特別是指一種深度學習之節奏練習系統。

在學習音樂的過程中，具有正確的節奏感是很重要的，而在初學時期的節奏感練習方式，通常都是跟著節拍器的聲音來進行打拍子，等練習至有一定基礎之後，便可以播放音樂，一邊聽音樂一邊跟著音樂節拍來打拍子，且打拍子最方便的方法一便是拍手，而在傳統的節奏練習上則要依賴老師來指導學生，跟著音樂用拍手聲將拍子打在正確的拍點上，若現場無老師指導時，學生在練習上便會無法有效確定自己配合音樂打拍子的節奏感練習，其所打的拍子是否位於正確的拍點上，因為對於拍手聲結合於音樂聲之中，要在音樂聲中正確找到拍手點實為不易，同時更在練習後針對錄製音頻上，要在音樂聲中正確偵測出拍手聲並不容易，導致在判斷上會有誤差與遺漏，因此對於節奏練習與比對上，實需進行改進。

因此，本發明之目的，是在提供一種深度學習之節奏練習系統，其可藉由音頻辨識與深度練習的演算法對錄製的音頻訊號進行運算，有效偵測、比對出拍手聲是否位於正確的拍點節奏上，大幅提升節奏練習的準確性。

於是，本發明一種深度學習之節奏練習系統，包含有處理裝置及偵測比對裝置；其中，該偵測比對裝置包括有一儲存模組，以及一與該儲存模組連接之深度學習模組，而前述該儲存模組至少儲存有一訓練資料集、一驗證資料集及一具有拍點的音樂集，是以，利用該偵測比對裝置之儲存模組所提供具有拍點的音樂集供該處理裝置連接下載，以進行拍手節奏練習，並透過該處理裝置進一步針對前述的拍手節奏練習予以錄製轉換為音頻訊號並予以輸出，並經該深度學習模組以深度練習的演算法對錄製的音頻訊號進行運算，以進一步自動偵測、比對判斷出輸入的音頻訊號是否出現拍手聲，同時更能比對出拍手聲是否位於正確的拍點節奏上，大大提升節奏練習比對的準確性。

圖1是本發明一較佳實施例之示意圖。

圖2是本發明該較佳實施例之同時具有音樂聲+拍手聲長度為10秒的音頻訊號(紅色箭頭標示為拍手聲出現的位置)示意圖。

圖3是本發明該較佳實施例之標記為無拍手聲的長度為0.1秒的音頻訊號示意圖。

圖4是本發明該較佳實施例之標記為有拍手聲的長度為0.1秒的音頻訊號示意圖。

圖5是本發明該較佳實施例之深度學習提取音頻特徵示意圖。

圖6是本發明該較佳實施例之流程方塊示意圖。

有關本發明之前述及其他技術內容、特點與功效，在以下配合參考圖式之較佳實施例的詳細說明中，將可清楚的明白。

參閱圖1，本發明之一較佳實施例，該深度學習之節奏練習系統包含有一處理裝置，以及一與該處理裝置連接之偵測比對裝置；其中，該處理裝置為一可運用在智慧型手機、平板電腦等具有數據通訊的行動裝置上的應用程式，同時該偵測比對裝置為一終端機設置，且得以與該處理裝置以連線方式進行使用。

仍續前述，該偵測比對裝置包括有一儲存模組，以及一與該儲存模組連接之深度學習模組，其中，該儲存模組可為快閃記憶體、或其他儲存媒介等，且該儲存模組至少儲存有一訓練資料集，一驗證資料集及一具有拍點的音樂集，而前述該訓練資料集為錄製有由多位不同錄製者在至少10種音樂聲中的拍手聲，且每位錄製者錄製10段音頻訊號，對應10種音樂聲，每一段音頻訊號為60秒，同時在具有複數個拍手聲的音頻訊號，將其中多個無拍手聲的音頻訊號進行0.1秒的標記，而對於其中多個有拍手聲的音頻訊號進行0.1秒的標記所錄製儲存而成，以提供作為訓練模型使用，而在該驗證資料集中則錄製有與該訓練資料集不同之多位不同錄製者在至少10種音樂聲中的拍手聲，同時每位錄製者錄製10段音頻訊號，並對應10種音樂聲，每一段音頻訊號為60秒，而在具有複數個拍手聲的音頻訊號，且同樣將其中多個無拍手聲的音頻訊號進行0.1秒標記，並同時對於其中多個有拍手聲的音頻訊號進行0.1秒標記所錄製而成，以作為驗證模型正確性使用。

再者，對於前述儲存在該訓練資料集與該驗證資料集中之音頻訊號的取樣率，於本實施例中以16KHz為例，其方式為將錄製好的音頻訊號經過4階Butterworthe高通濾波器，3dB通過頻率為0.5Hz，用於濾除直流偏移，且再採用平均值正規化方式將濾波後的音頻訊號等比例縮放到[-1,1]區間，而其算式如下列：

其中X _max與X _min分別為資料中的最小值與最大值；μ為資料的平均值，則資料將縮放到[-1,1]區間中且平均值為=0

仍續前述，經由前述運算後，得以將正規化後之音頻訊號依序切割成長度0.1秒的音頻訊號，且以人工判別方式，將每一個0.1秒的音頻訊號，標記為有拍手聲或無拍手聲，即如圖2至圖4所示，至於，該具有拍點的音樂集則儲存錄製有複數與該訓練資料集、驗證資料集之音頻訊號相對應且具有拍點的音樂資料，以供與該處理裝置進行連接下載使用。

接續前述，至於該深度學習模組針對該處理裝置所輸入的音頻訊號，係透過該深度學習模組的技術去提高辨識的準確率，另再配合參閱圖5，而在該深度學習模組中具有至少五個特徵提取層、一個平坦層、二個分類及一個全連接層，而前述該深度學習模組是以輸入訊號為0.1秒音頻訊號，取樣頻率為16K，因此輸入訊號長度為1600個取樣點，且該每一特徵提取層進一步還包括有一卷積神經網路層、一批次正規化層、一激勵層、一最大值池化層及一捨棄層，而該卷積神經網路層具有三十二個特徵圖，且該卷積神經網路層的卷積核長度為16，同時該最大值池化層的池化長度為2設計，因此在五個該特徵提取層之後是該平坦層，其用來將二維的特徵矩陣轉換為一維的特徵向量，以提供後面的該等分類層做為輸入訊號，且該每一分類層還進一步包括有一全連接神經網路層、一批次正規化層、一激勵層及一捨棄層，且該全連接神經網路層具有一百二十八個神經元，同時在二個該分類層之後是該全連接層，其具有二個神經元，用來計算該全連接層的二個輸出訊號對應的機率，且這二個輸出訊號分別對應於無拍手聲與有拍手聲，而分類結果即為較大機率對應的類別，因此前述在該特徵提取層和該分類層中的卷積神經網路層及全連接神經網路層之後的該批次正規化層的功能是對訊號進行正規化，使已正規化後的訊號在進入該激勵層時，可以提高神經網路的速度、性能和穩定性，且在該特徵提取層中設有該最大值池化層的目的是為降低網路的複雜性和過度擬合的可能性，而藉由其池化長度為2的該最大值池化層可將每個特徵圖的數量減少為一半，同時再藉由該捨棄層的配合可用來減少過度擬合作用，藉以形成一最佳化的深度學習模組；同時，該深度學習模組採用該訓練資料集中所有的0.1秒音頻訊號以及對應的有或無拍手聲標記，並配合最陡下降法進行模型訓練，以找出最佳化的模型參數，接著使用該驗證資料集中所有的0.1秒音頻訊號以及對應的有或無拍手聲的標記，取得分類的結果與匹配機率，計算驗證的正確性，本發明之驗證準確度可達95%以上。

最後，該處理裝置包括有一播放模組，一輸入模組，以及一分別與該播放模組、該輸入模組連接之收發模組，而前述該播放模組可透過該收發模組載入該儲存模組之具有拍點的音樂集進行播放，而該輸入模組具有錄音功能，其能對播放當中的音樂與拍手聲進行錄音，且將錄音檔轉換為一音頻訊號，至於該收發模組可將該音頻訊號予以輸出，並連接至該偵測比對裝置進行音頻訊號的訓練與驗證。

參閱圖1至圖6，使用者欲進行拍手節奏練習時，其可開啟行動裝置，以點選該播放模組，使該播放模組透過該收發模組來連接至該儲存模組中，以對儲存於內之具有拍點的音樂集中的音樂進行選擇並載入播放，使用者即可於該播放模組在播放音樂過程中，跟著一同在需要的拍手聲的節奏點上進行打拍子的節奏感練習，因此當跟隨各種不同音樂練習數遍後，若使用者想清楚瞭解自己拍手的節奏是否位在正確的拍點上時，其可在下一次點選該播放模組載入音樂進行播放的時候，同時再一併點選啟動該輸入裝置以進行同步錄音，這時該輸入裝置便可針對當下使用者對應播放音樂所進行的拍手聲與播放的音樂以每隔0.1秒方式進行錄音，並對所錄製的錄音檔轉換為一音訊檔，以輸出至該收發模組，且由該收發模組將該音訊檔予以輸出連接至該偵測比對裝置中，這時該偵測比對裝置便可透過最佳化該深度學習模型，去偵測、辨識該音頻檔中之每0.1秒的音頻訊號是否出現拍手聲，如果出現拍手聲，接著比對該0.1秒音頻訊號所在的時間，是否位於音樂節奏拍點上，如果是，則判斷為一次位於正確拍點的拍手聲，如果不是，則判斷為一次位於錯誤拍點的拍手聲，以此類推進行，同時該偵測比對裝置亦會將驗證比對後的結果連接至該處理裝置，且由該收發模組接收，使該處理裝置將結果狀態輸出顯示給使用者瞭解，因此在使用上，得以不受場地的限制，隨時都可進行節奏訓練的練習，與即時進行節奏拍點的拍手聲的比對驗證，因此對於音樂拍點的拍手聲比對相當具有效率性，大大有效提升節奏練習的準確性。

歸納前述，本發明深度學習之節奏練習系統，其藉由該偵測比對裝置之儲存模組得以提供儲存於內的具有拍點的音樂集，可供該處理裝置透過連線方式進行下載播放，以供使用者配合該具有拍點的音樂集進行節奏拍點的拍手聲練習，同時更可通過該處理裝置得以同步對對拍手聲與音樂進行錄音並轉換為一音頻訊號，以連經至該偵測比對裝置中以深度練習的演算法對錄製的音頻訊號進行運算，且與該儲存模組內的儲存資料進行偵測、比對，不僅能有效自動判斷出輸入的音頻訊號是否出現拍手聲，更能進一步驗證與比對出拍手聲是否位於正確的拍點節奏上，因此在使用上，得以不受場地的限制，隨時都可進行節奏訓練的練習，有效提升驗證節奏練習比對的準確性。

惟以上所述者，僅為說明本發明之較佳實施例而已，當不能以此限定本發明實施之範圍，即大凡依本發明申請專利範圍及發明說明書內容所作之簡單的等效變化與修飾，皆應仍屬本發明專利涵蓋之範圍內。

Claims

一種深度學習之節奏練習系統，其包含有一處理裝置，以及一與該處理裝置連接之偵測比對裝置；其中，該處理裝置包括有一播放模組，一輸入模組，以及一分別與播放模組、該輸入模組連接之收發模組，而前述該播放模組可透過該收發模組與該偵測比對裝置連接，以載入具有拍點音樂進行播放，而該輸入模組可對拍手聲與音樂進行錄音，且將該錄音檔轉換為一音頻訊號輸出至該收發模組，使該收發模組可將該音頻訊號予以輸出；另，該偵測比對裝置包括有一儲存模組，以及一與該儲存模組連接之深度學習模組，而前述儲存模組至少儲存有一訓練資料集、一驗證資料集及一具有拍點的音樂集，而該深度學習模組具有至少五個特徵提取層、一個平坦層、二個分類及一個全連接層，該等特提取徵層可對音頻訊號提取出複數個特徵圖，該平坦層再將二維的特徵矩陣轉換為一維的特徵向量，該全連接層再計算出對應的機率，產生分類結果為較大機率對應的類別，使該深度學習模組採用該訓練資料集並配合最陡下降法進行模型訓練，以找出最佳化的模型參數，接著使用該驗證資料集取得分類結果與匹配機率，計算驗證的正確性。
根據請求項1所述之深度學習之節奏練習系統，其中，該訓練資料集為儲存錄製有複數種音樂聲中之拍手聲的音頻訊號，且每一段音頻訊號為60秒，依序切割成長度0.1秒的音頻訊號，且以人工判別方式，將其中每一個無拍手聲的音頻訊號進行0.1秒的標記，而對於其中每一個有拍手聲的音頻訊號進行0.1秒的標記，以提供作為訓練模型使用。
根據請求項1所述之深度學習之節奏練習系統，其中，該驗證資料集為儲存錄製有與該訓練資料集不同之複數種音樂聲中之拍手聲的音頻訊號，且每一段音頻訊號為60秒，依序切割成長度0.1秒的音頻訊號，且以人工判別方式，將其中每一個無拍手聲的音頻訊號進行0.1秒標記，同時對於其中每一個有拍手聲的音頻訊號進行0.1秒標記，以作為驗證模型正確性使用。
根據請求項1所述之深度學習之節奏練習系統，其中，該具有拍點的音樂集儲存錄製有複數與該訓練資料集、驗證資料集之音頻訊號相對應且具有拍點的音樂資料。
根據請求項1所述之深度學習之節奏練習系統，其中，該每一特徵提取層進一步還包括有一卷積神經網路層、一批次正規化層、一激勵層、一最大值池化層及一捨棄層。
根據請求項5所述之深度學習之節奏練習系統，其中，該卷積神經網路層具有三十二個特徵圖，且該卷積神經網路層的卷積核長度為16。
根據請求項5所述之深度學習之節奏練習系統，其中，該最大值池化層的池化長度為2。
根據請求項1所述之深度學習之節奏練習系統，其中，該每一分類層還進一步包括有一全連接神經網路層、一批次正規化層、一激勵層及一捨棄層。
根據請求項1所述之深度學習之節奏練習系統，其中，該全連接層具有二個神經元。