TWI742486B

TWI742486B - 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體

Info

Publication number: TWI742486B
Application number: TW108146063A
Authority: TW
Inventors: 黃顯詔; 丁羿慈; 陳譽云; 楊崇文
Original assignee: 宏正自動科技股份有限公司
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2021-10-11
Also published as: CN112992109A; US10854182B1; CN112992109B; TW202125498A

Abstract

一種輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體。若在應演唱期間未出現演唱歌聲，則執行接唱程序；若演唱歌聲偏離音準，則執行音準調整程序。

Description

輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體

本發明是有關於一種智能輔助技術，尤指一種輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體。

現有的歌唱裝置能夠於播放伴唱帶時供使用者自行調整伴奏音樂的音調高低，但當使用者唱歌偏離音準時（即走音），歌唱裝置並無法提供任何幫助。又如使用者唱歌時會發生忘詞或忘記歌詞旋律，歌唱裝置僅能將原唱歌聲播放出來幫助使用者（即俗稱之導唱模式），這僅能幫助使用者私下練習，無助於使用者唱歌演出。

有鑑於此，本發明實施例提出一種輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體。

在一實施例中，輔助歌唱系統包括收音裝置、處理裝置及播放裝置，輔助歌唱方法是關於接唱程序。收音裝置接收演唱歌聲。處理裝置偵測演唱歌聲是否出現在應演唱期間，若否，則執行接唱程序。接唱程序配合包括編碼器及解碼器的聲學模型執行。聲學模型經由原唱者訓練資料訓練之後獲得原唱者聲學模型，聲學模型經由使用者訓練資料訓練之後獲得使用者聲學模型。接唱程序包括：轉換原唱者聲音片段為原唱者聲學特徵；輸入原唱者聲學特徵至原唱者聲學模型中的編碼器中；以使用者聲學模型中的解碼器接收原唱者聲學模型中的編碼器的輸出；從使用者聲學模型中的解碼器的輸出獲得使用者聲學特徵；及由聲碼器將使用者聲學特徵轉換為合成歌聲。續而，播放裝置輸出合成歌聲。

在一實施例中，輔助歌唱系統包括收音裝置、處理裝置及播放裝置，輔助歌唱方法是關於音準調整程序。收音裝置接收演唱歌聲。處理裝置判斷演唱歌聲的演唱音準相比於原唱歌聲的原唱音準是否一致，若不一致，則對演唱歌聲執行音準調整程序。音準調整程序配合包括另一編碼器及另一解碼器的音準模型執行。音準模型經由原唱者訓練資料訓練之後獲得原唱者音準模型，音準模型經由使用者訓練資料訓練之後獲得使用者音準模型。音準調整程序包括：將演唱歌聲轉換為使用者聲音頻譜；將原唱歌聲轉換為原唱者聲音頻譜；輸入使用者聲音頻譜至使用者音準模型中的編碼器中，以獲得使用者聲學特徵；輸入原唱者聲音頻譜至原唱者音準模型中的編碼器中，以獲得原唱者基頻；將使用者聲學特徵及原唱者基頻輸入至使用者音準模型中的解碼器；從使用者音準模型中的解碼器的輸出獲得經調整的使用者聲音頻譜；及將經調整的使用者聲音頻譜轉換為經調整音準的演唱歌聲。續而，播放裝置輸出經調整音準的演唱歌聲。

綜上所述，根據本發明的實施例，透過偵測在應演唱期間使用者是否歌唱來決定是否執行接唱程序，使得使用者在忘詞或因故停止歌唱的時候，可以自動以使用者的聲音接續歌唱。透過接唱程序，所產生的接唱歌聲可保持如同原唱的音準，並且由於採用自編碼器架構的模型，接唱歌聲可以如同使用者的音色一般。此外，透過偵測使用者的歌唱音準，可以在使用者音準偏離的時候，執行音準調整程序。透過音準調整程序，可以自動調整音高，並且由於採用自編碼器架構的模型，可以保持原本使用者的音色。

參照圖1，係為本發明一實施例之輔助歌唱系統100之架構示意圖。輔助歌唱系統100包括依序連接的收音裝置110、處理裝置120及播放裝置130。收音裝置110與處理裝置120之間可以透過有線通訊方式（如導線、符合某種通訊協定（如通用序列匯流排（USB））的傳輸線）或無線通訊方式（如藍牙、無線網路）連接。播放裝置130與處理裝置120之間可以透過有線通訊方式（如導線、傳輸線）或無線通訊方式（如藍牙、無線網路）連接。

收音裝置110用以擷取使用者的演唱歌聲，其包括單一麥克風或多個麥克風（如麥克風陣列）。麥克風可以採用如動圈式麥克風、電容式麥克風、微機電麥克風等類型。

處理裝置120選擇性地對收音裝置110收取的演唱歌聲執行輔助歌唱處理，即輔助歌唱方法（於後詳述）。處理裝置120為一個或多個具有運算能力的電腦系統，例如個人電腦、筆記型電腦、智慧型手機、平板電腦、伺服器叢集等。參照圖2，係為本發明一實施例之處理裝置120之架構示意圖。處理裝置120具有處理器121、記憶體122、非暫態電腦可讀取記錄媒體123、供連接收音裝置110和播放裝置130的周邊介面124、及供上述元件彼此通訊的匯流排125。匯流排125包括但不限於系統匯流排、記憶體匯流排、周邊匯流排等一種或多種之組合。處理器121包括但不限於中央處理單元（CPU）1213和神經網路處理器（NPU）1215。記憶體122包括但不限於揮發性記憶體（如隨機存取記憶體（RAM））1224和非揮發性記憶體（如唯讀記憶體（ROM））1226。非暫態電腦可讀取記錄媒體123可例如為硬碟、固態硬碟等，供儲存包括複數指令的電腦程式產品300（如圖3所示），致使電腦系統的處理器121執行該些指令時，使得電腦系統執行所述輔助歌唱方法。

復參照圖1，播放裝置130用以播放經處理裝置120執行或未執行輔助歌唱處理的演唱歌聲，其包括單一喇叭或多個喇叭。喇叭可以採用如動圈式喇叭、動鐵式喇叭等類型。

在一些實施例中，收音裝置110、處理裝置120及播放裝置130中的任二者可以是以單一個體形式實現。例如，收音裝置110和播放裝置130為耳機麥克風之單一裝置。又如，收音裝置110和處理裝置120為智慧型手機之單一裝置實現，而連接一外接形式的播放裝置130。或者，播放裝置130和處理裝置120為個人電腦之單一裝置實現，而連接一外接形式的收音裝置110。又或者，收音裝置110、處理裝置120及播放裝置130為筆記型電腦之單一裝置實現。

在一些實施例中，收音裝置110、處理裝置120及播放裝置130可以是分別獨立的個體。例如，處理裝置120為一個人電腦，分別連接外接形式的收音裝置110及播放裝置130。

在一些實施例中，處理裝置120包括二個以上的電腦系統，例如：一個人電腦及一伺服器。伺服器提供前述的輔助歌唱處理。個人電腦內建或外接收音裝置110及播放裝置130，以將演唱歌聲經由網路傳送給伺服器處理，並經由網路接收伺服器回傳的經處理的演唱歌聲。

合併參照圖3及圖4，圖3為本發明一實施例之供執行輔助歌唱方法之電腦程式產品300之方塊示意圖，圖4為本發明一實施例之輔助歌唱方法流程圖。電腦程式產品300包括人聲歌唱檢測模組310、接唱模組320、音準調整模組330、音樂分離模組340及混音模組350。

首先，音樂分離模組340對使用者欲演唱的歌曲檔案進行音樂分離，亦即從歌曲中分別取出伴奏音樂及原唱者的歌聲（後稱「原唱歌聲」）。音樂分離模組340係可由強固主成分分析（Robust Principal Component Analysis，RPCA）、重複特徵擷取技術（REpeating Pattern Extraction Technique，REPET）、捲積神經網絡（Convolutional Neural Networks，CNN）或深度循環神經網絡（Deep Recurrent Neural Networks，DRNN）等演算法實現。其中在使用RPCA或REPET時，是先假設音樂中伴奏部份會不斷的重複出現（因為樂器聲音較人聲固定），這兩個演算法是用來找出重複出現的內容，因此即可將這重複出現的部分（即音樂伴奏）抽離出來，進而可得知人聲的部分，而能將音樂與人聲分離開來。而CNN與DRNN則是透過有深度學習過的神經網路模型來分離音樂與人聲，即給定輸入為一有音樂伴奏的人聲至該神經網路模型，接著此神經網路模型透過經過深度學習而得到的參數能自動輸出為純音樂伴奏與純人聲，其中，此神經網路模型能透過訓練讓神經網絡習得如何將人聲從歌曲中分離出來更為精確。

在步驟S401中，人聲歌唱檢測模組310對收音裝置110接收到的聲音進行檢測，以偵測演唱歌聲是否出現在應演唱期間。所述應演唱期間係可根據原唱歌聲出現的時間區間來獲得。人聲歌唱檢測模組310可由分類與迴歸樹（classification and regression tree，CART）、語音活動偵測（Voice Activity Detection，VAD）、VadNet等演算法實現。若在應演唱期間沒有檢測到演唱歌聲，則進入步驟S402；若在應演唱期間檢測到演唱歌聲，則進入步驟S403。

在步驟S402中，接唱模組320執行接唱程序（於後詳述），接唱程序能自行產生應演唱的歌聲（後稱「合成歌聲」），藉此能於使用者忘詞的情形提供幫助。

在步驟S403中，音準調整模組330判斷演唱歌聲之音準（後稱「演唱音準」）相比於原唱歌聲的音準（後稱「原唱音準」）是否一致。若不一致，則進入步驟S404；若一致，則進入步驟S405。

其中，音準調整模組330對於音準是否一致的判斷，可基於標準化交叉相關（Normalized Cross Correlation）演算法或和弦音高偵測（Polyphonic Pitch Detection）演算法等實現，這些方法透過找出音訊中重複出現的波形，計算這些波形出現的時間間隔，便可得到每個波形所需的時間，也就是週期，進而可以經由周期計算出音訊的音準（或音頻）。藉此分別找出歌手與使用者的音準進行判別（如相減的方式），即可判斷音準是否一致，如果一致，即表示使用者與歌手的音準是相等，若判斷不一致，則表示使用者的音準不等於歌手的音準。本發明並非以此為限制，另於一些實施例中，亦可使用開源軟體如「World」或「Straight」等取出人聲音準以進行比對，換句話說，此些開源軟體任一者可將人聲音準轉換成聲音參數後，以供後續進行比對。

在步驟S404中，音準調整模組330執行音準調整程序（於後詳述），藉此將演唱音準調整至原唱音準，以改善走音的現象。

在步驟S405中，混音模組350對於無需調整的演唱歌聲、經過步驟S402產生的合成歌聲和經過步驟S404調整音準的演唱歌聲，將其與音樂分離模組340分離出的伴奏音樂相混合，以經由播放裝置130輸出。

在說明接唱程序之前，先說明接唱程序所使用到的聲學模型。參照圖5，係為本發明一實施例之聲學模型500之架構示意圖。聲學模型500是一種監督學習方式的神經網路模型，包括編碼器510及解碼器520，亦即為自編碼器（AutoEncoder）架構。編碼器510可對所輸入的聲學特徵轉換為特徵向量；解碼器520則將特徵向量轉換為聲學特徵。在經過輸入特定人員的大量訓練資料（例如帶有文字的聲音）至聲學模型500之後，可收斂出權重參數，此些權重參數搭配此聲學模型500，即為訓練好的關於此特定人員的聲學模型500。其中訓練資料即為該人員之大量聲音音訊。例如，提供大量有關使用者的聲音檔案作為訓練資料（即原唱者訓練資料），可訓練出使用者聲學模型500；提供大量有關歌手（即前述原唱者）的聲音檔案作為訓練資料（即使用者訓練資料），可訓練出原唱者聲學模型500。換言之，利用關於不同人的訓練資料，可訓練出具有不同權重參數的聲學模型500。另外，在一些實施例中，聲學模型500亦可讓特定人員即時以說大量詞句或唱大量的歌曲的方式輸入而建構完成。

在一些實施例中，如圖5所示，編碼器510包括一捲積（Convolution）層511、一門控線性單元（Gated Linear Unit，GLU）512及六層殘差塊（Residual Block）513；解碼器520包括一反捲積（Deconvolution）層521及一門控線性單元522。然而，本發明實施例之編碼器510和解碼器520並非以上述組成為限。

參照圖6，係為本發明一實施例之接唱程序流程圖。在步驟S601中，將原唱者聲音片段轉換為聲學特徵（後稱「原唱者聲學特徵」）。在此，原唱者聲學特徵可為梅爾倒頻譜係數（Mel Frequency Cepstral Coefficents，MFCCs），但本發明實施例非以此為限，亦可以是例如頻譜包絡（Spectral Envelope）、基頻（Fundamental Frequency）、非週期信號（Aperiodicity）。在此，可先對原唱者聲音片段進行預處理，例如將原唱歌聲與伴奏音樂分離，以使用單純的原唱歌聲進行聲學特徵轉換。

在步驟S602中，將原唱者聲學特徵輸入至原唱者聲學模型500中的編碼器510中，由於原唱者聲學模型500具有對應於原唱者的權重參數，因此編碼器510可藉此輸出相應於原唱者聲學特徵的特徵向量。在步驟S603中，以使用者聲學模型500中的解碼器520接收原唱者聲學模型500中的編碼器510輸出的特徵向量。在步驟S604中，由於使用者聲學模型500具有對應於使用者的權重參數，因此從使用者聲學模型500中的解碼器520輸出可以獲得使用者聲學特徵（後稱「第一使用者聲學特徵」）。在步驟S605中，由聲碼器（如圖7所示）將第一使用者聲學特徵轉換為合成歌聲。藉此，產生的接唱歌聲可保持如同原唱的音準，且該歌聲如同使用者的音色一般。

參照圖7，係為本發明一實施例之接唱模組320之架構示意圖。在一些實施例中，接唱模組320包括特徵分析單元321，以從原唱者聲音片段獲得梅爾倒頻譜係數（MFCCs）、基本頻率（Fundamental frequency）、頻譜包絡（Spectral Envelope）及非週期信號（Aperiodicity）中任一者聲紋資訊。特徵分析單元321包括多種演算法，以估算出上述聲紋資訊。透過例如DIO、YIN或SWIPE演算法獲得基本頻率。這些方法透過找出音訊中重複出現的波形，計算這些波形出現的時間間隔，便可得到每個波形所需的時間，也就是週期，進而可以計算出音訊的音準（基本頻率）。透過例如Platinum演算法（PLATform INference by removing Underlying Material）獲得非週期信號。因為非週期信號通常是音訊中極高頻的部份。所謂的極高頻的部份就是變化非常快的部份，Platinum 演算法就是找出音訊中的音訊變化的極大值，即為非週期信號。梅爾倒頻譜係數的取得方式是，對原唱者聲音片段分幀、加窗（windowing），並對每一幀做傅立葉轉換（FT），再將每一幀的結果堆疊，可獲得聲譜圖。再透過梅爾標度濾波器（mel-scale filter banks）將聲譜圖轉換為梅爾頻譜。並且，將梅爾頻譜進行對數處理（log）與反傅立葉轉換（Inverse FT）後，便可取得梅爾倒頻譜係數。

在一些實施例中，特徵分析單元321透過例如CheapTrick演算法獲得頻譜包絡。

如圖7所示，將梅爾倒頻譜係數輸入至混合聲學模型500’（包括原唱者聲學模型500中的編碼器510及使用者聲學模型500中的解碼器520），透過前述步驟S602~S604，可獲得第一使用者聲學特徵（在此為梅爾倒頻譜係數）。聲碼器322除了依據梅爾倒頻譜係數產生合成歌聲之外，還結合了基本頻率、非週期信號（如人聲中的氣音）、頻譜包絡（Spectral Envelope），使得合成歌聲更加自然。其中聲碼器322將梅爾倒頻係數，或使用者其他聲學特徵如基頻、頻譜包絡、非週期信號等作為輸入，依序輸出每個時間點上音訊波形的數值（亦即，x 軸為時間軸，y 軸為每個時間點上的音訊數值）。頻譜包絡關乎於音色。基本頻率關乎於音高。聲碼器322及至少一部分的特徵分析單元321可利用開源軟體「World」或「Straight」來實現，但本發明實施例非以此為限。

在說明音準調整程序之前，先說明音準調整程序所使用到的音準模型。參照圖8，係為本發明一實施例之音準模型800之架構示意圖。音準模型800是一種監督學習方式的神經網路模型，包括編碼器810、解碼器820及後網路（PostNet）830，亦即為自編碼器架構。編碼器810可對所輸入的聲學特徵轉換為特徵向量。解碼器820則將特徵向量轉換為聲學特徵。後網路830對聲學特徵進行優化處理，例如減少輸出音訊之雜音、爆音與不連續性等問題，藉此能提高輸出音訊之品質。在經過輸入特定人員的大量訓練資料至音準模型800之後，可收斂出權重參數，此些權重參數搭配此音準模型800，即為訓練好的關於此特定人員的音準模型800。其中訓練資料為該人員大量的音訊。例如，提供大量有關使用者的聲音檔案作為訓練資料（即使用者訓練資料），可訓練出使用者音準模型800；提供大量有關歌手（即原唱者）的聲音檔案作為訓練資料（即原唱者訓練資料），可訓練出原唱者音準模型800。換言之，利用關於不同人的訓練資料，可訓練出具有不同權重參數的音準模型800。在此，對於同一人而言，用於訓練音準模型800的訓練資料可與用於訓練聲學模型500的訓練資料不同。

在一些實施例中，如圖8所示，編碼器810包括三個捲積層811。解碼器820包括一捲積層821及一門控循環單元（Gated Recurrent Unit，GRU）822。後網路830包括一反捲積層831。然而，本發明實施例之編碼器810、解碼器820和後網路830並非以上述組成為限。

合併參照圖9及圖10，圖9為本發明一實施例之音準調整程序流程圖，圖10為本發明一實施例之音準調整模組330之架構示意圖。在步驟S901中，利用轉換單元331將使用者的演唱歌聲轉換為聲音頻譜（後稱「使用者聲音頻譜」）。轉換單元331可由傅立葉轉換演算法或其他時域轉頻域的演算法實現。在步驟S902中，同樣利用轉換單元331將原唱歌聲轉換為聲音頻譜（後稱「原唱者聲音頻譜」）。在此，圖9雖繪示二個轉換單元331，然而可以是由僅由一轉換單元331來執行前述步驟S901與步驟S902。

在步驟S903中，將使用者聲音頻譜輸入至使用者音準模型800中的編碼器810（於後稱「使用者音準模型編碼器810a」）中，由於使用者音準模型800具有對應於使用者的權重參數，因此可獲得使用者聲學特徵（於後稱「第二使用者聲學特徵」）。在此，第二使用者聲學特徵可以例如是基頻、頻譜包絡、非週期音、廣義梅爾倒頻譜係數（Mel Generalized Cepstrum）等中的一個或多個的組合。

在步驟S904中，將原唱者聲音頻譜輸入至原唱者音準模型800中的編碼器810（於後稱「原唱者音準模型編碼器810b」）中，由於原唱者音準模型800具有對應於原唱者的權重參數，因此可獲得原唱者基本頻率（於後稱「原唱者基頻」）。

在一些實施例中，步驟S901與步驟S902的先後次序可以互換，步驟S903與步驟S904的先後次序可以互換。步驟S901至步驟S904之次序可以調整，只要在步驟S903執行之前已完成步驟S901，在步驟S904執行之前已完成步驟S902即可。

在步驟S905中，將經由步驟S903獲得的第二使用者聲學特徵和經由步驟S904獲得的原唱者基頻，輸入至使用者音準模型800的解碼器820（於後稱「使用者音準模型解碼器820a」）中，以保留使用者的音色與原唱的音高（即正確的音高）。

在步驟S906中，由於使用者音準模型800具有對應於使用者的權重參數，因此從使用者音準模型解碼器820a的輸出，可獲得經調整的使用者聲音頻譜。

在步驟S907中，經由聲碼器332將經調整的使用者聲音頻譜轉換為經調整音準的演唱歌聲。其中聲碼器332將梅爾倒頻係數，或使用者其他聲學特徵如基頻、頻譜包絡、非週期信號等作為輸入，依序輸出每個時間點上音訊波形的數值。聲碼器332可利用開源軟體「World」或「Straight」來實現，但本發明實施例非以此為限。如此一來，可以讓使用者演唱的歌聲調整至正確的音準，並且保持原本使用者的音色。

在一些實施例中，音準調整模組330可以是採用音調同步疊加（Pitch Synchronous Overlap Add，PSOLA）演算法來實現。此演算法找出音訊中重複出現的波形，透過疊加或刪減波形來達成降低或升高頻率的目的，藉以調整音訊之音準。

在一些實施例中，處理裝置120依據分離出的原唱歌聲辨識原唱者的身分，從而根據原唱者的身分，載入對應原唱者的原唱者音準模型800。

在一些實施例中，處理裝置120依據分離出的原唱歌聲辨識原唱者的身分，從而根據原唱者的身分，載入對應原唱者的原唱者聲學模型500。

在一些實施例中，處理裝置120從所播放歌曲檔案的中繼資料中，或者透過使用者輸入等方式，獲得原唱者的身分，據以載入對應原唱者的原唱者聲學模型500和原唱者音準模型800。

在一些實施例中，電腦程式產品300不包括音樂分離模組340及混音模組350，處理裝置120是播放無原唱歌聲的伴奏音樂。在此情形下，音準調整模組330所需要的原唱歌聲可從儲存在非暫態電腦可讀取記錄媒體123中的歌曲檔案或另行處理的歌聲檔案中取得，應演唱期間可透過時間標記的方式得知。

100:輔助歌唱系統 110:收音裝置 120:處理裝置 130:播放裝置 121:處理器 1213:中央處理單元 1215:神經網路處理器 122:記憶體 1224:揮發性記憶體 1226:非揮發性記憶體 123:非暫態電腦可讀取記錄媒體 124:周邊介面 125:匯流排 300:電腦程式產品 310:人聲歌唱檢測模組 320:接唱模組 321:特徵分析單元 322:聲碼器 330:音準調整模組 331:轉換單元 332:聲碼器 340:音樂分離模組 350:混音模組 S401、S402、S403、S404、S405:步驟 500:聲學模型 500’:混合聲學模型 510:編碼器 511:捲積層 512:門控線性單元 513:殘差塊 520:解碼器 521:反捲積層 522:門控線性單元 S601、S602、S603、S604、S605:步驟 800:音準模型 810:編碼器 810a:使用者音準模型編碼器 810b:原唱者音準模型編碼器 811:捲積層 820:解碼器 820a:使用者音準模型解碼器 821:捲積層 822:門控循環單元 830:後網路 831:反捲積層 S901、S902、S903、S904、S905、S906、S907:步驟

[圖1]為本發明一實施例之輔助歌唱系統之架構示意圖。 [圖2]為本發明一實施例之處理裝置之架構示意圖。 [圖3]為本發明一實施例之供執行輔助歌唱方法之電腦程式產品之方塊示意圖。 [圖4]為本發明一實施例之輔助歌唱方法流程圖。 [圖5]為本發明一實施例之聲學模型之架構示意圖。 [圖6]為本發明一實施例之接唱程序流程圖。 [圖7]為本發明一實施例之接唱模組之架構示意圖。 [圖8]為本發明一實施例之音準模型之架構示意圖。 [圖9]為本發明一實施例之音準調整程序流程圖。 [圖10]為本發明一實施例之音準調整模組之架構示意圖。

S401、S402、S403、S404、S405:步驟

Claims

一種輔助歌唱方法，包括：由一收音裝置接收一演唱歌聲；由一處理裝置偵測該演唱歌聲是否出現在一應演唱期間，若否，則執行一接唱程序，該接唱程序配合包括一編碼器及一解碼器的一聲學模型執行，該聲學模型經由一原唱者訓練資料訓練之後獲得一原唱者聲學模型，該聲學模型經由一使用者訓練資料訓練之後獲得一使用者聲學模型，該接唱程序包括：轉換一原唱者聲音片段為一原唱者聲學特徵；輸入該原唱者聲學特徵至該原唱者聲學模型中的該編碼器中；以該使用者聲學模型中的該解碼器接收該原唱者聲學模型中的該編碼器的輸出；從該使用者聲學模型中的該解碼器的輸出獲得一第一使用者聲學特徵；及由一聲碼器將該第一使用者聲學特徵轉換為一合成歌聲；及由一播放裝置輸出該合成歌聲。
如請求項1所述之輔助歌唱方法，其中若該演唱歌聲出現在該應演唱期間，由該處理裝置判斷該演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序。
如請求項2所述之輔助歌唱方法，其中該音準調整程序配合包括另一編碼器及另一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將該原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該另一編碼器中，以獲得一第二使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該另一編碼器中，以獲得一原唱者基頻；將該第二使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的一解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲。
如請求項3所述之輔助歌唱方法，更包括：由該處理裝置從一歌曲檔案分離出一伴奏音樂及該原唱歌聲；由該處理裝置依據分離出的該原唱歌聲辨識一原唱者的身分；及根據該原唱者的身分，由該處理裝置載入對應該原唱者的該原唱者音準模型。
如請求項1所述之輔助歌唱方法，更包括：由該處理裝置從一歌曲檔案分離出一伴奏音樂及一原唱歌聲。
如請求項5所述之輔助歌唱方法，更包括：由該處理裝置依據分離出的該原唱歌聲辨識一原唱者的身分；及根據該原唱者的身分，由該處理裝置載入對應該原唱者的該原唱者聲學模型。
一種非暫態電腦可讀取記錄媒體，包括複數指令，於一電腦系統的至少一處理器執行該複數指令時致使該電腦系統執行下列步驟：偵測一演唱歌聲是否出現在一應演唱期間，若否，則執行一接唱程序，該接唱程序配合包括一編碼器及一解碼器的一聲學模型執行，該聲學模型經由一原唱者訓練資料訓練之後獲得一原唱者聲學模型，該聲學模型經由一使用者訓練資料訓練之後獲得一使用者聲學模型，該接唱程序包括：轉換一原唱者聲音片段為一原唱者聲學特徵；輸入該原唱者聲學特徵至該原唱者聲學模型中的該編碼器中；以該使用者聲學模型中的該解碼器接收該原唱者聲學模型中的該編碼器的輸出；從該使用者聲學模型中的該解碼器的輸出獲得一第一使用者聲學特徵；及由一聲碼器將該第一使用者聲學特徵轉換為一合成歌聲。
如請求項7所述之非暫態電腦可讀取記錄媒體，其中若該演唱歌聲出現在該應演唱期間，則判斷該演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序。
如請求項8所述之非暫態電腦可讀取記錄媒體，其中該音準調整程序配合包括另一編碼器及另一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將一原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該另一編碼器中，以獲得一第二使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該另一編碼器中，以獲得一原唱者基頻；將該第二使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的一解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲。
如請求項9所述之非暫態電腦可讀取記錄媒體，其中該電腦系統執行的該些步驟更包括：從一歌曲檔案分離出一伴奏音樂及該原唱歌聲；依據分離出的該原唱歌聲辨識一原唱者的身分；及根據該原唱者的身分，載入對應該原唱者的該原唱者音準模型。
如請求項7所述之非暫態電腦可讀取記錄媒體，其中該電腦系統執行的該些步驟更包括：從一歌曲檔案分離出一伴奏音樂及一原唱歌聲。
如請求項11所述之非暫態電腦可讀取記錄媒體，其中該電腦系統執行的該些步驟更包括：依據分離出的該原唱歌聲辨識一原唱者的身分；及根據該原唱者的身分，載入對應該原唱者的該原唱者聲學模型。
一種輔助歌唱系統，包括：一收音裝置，接收一使用者的一演唱歌聲；一處理裝置，偵測該演唱歌聲是否出現在一應演唱期間，若否，則執行一接唱程序，其中該接唱程序配合包括一編碼器及一解碼器的一聲學模型執行，該聲學模型經由一原唱者訓練資料訓練之後獲得一原唱者聲學模型，該聲學模型經由一使用者訓練資料訓練之後獲得一使用者聲學模型，該接唱程序包括：轉換一原唱者聲音片段為一原唱者聲學特徵；輸入該原唱者聲學特徵至該原唱者聲學模型中的該編碼器中；以該使用者聲學模型中的該解碼器接收該原唱者聲學模型中的該編碼器的輸出；從該使用者聲學模型中的該解碼器的輸出獲得一第一使用者聲學特徵；及由一聲碼器將該第一使用者聲學特徵轉換為一合成歌聲；及一播放裝置，輸出該合成歌聲。
如請求項13所述之輔助歌唱系統，其中若該演唱歌聲出現在該應演唱期間，則該處理裝置判斷該演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序。
如請求項14所述之輔助歌唱系統，其中該音準調整程序配合包括另一編碼器及另一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將該原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該另一編碼器中，以獲得一第二使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該另一編碼器中，以獲得一原唱者基頻；將該第二使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的該另一解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲。
如請求項15所述之輔助歌唱系統，其中該處理裝置還從一歌曲檔案分離出一伴奏音樂及該原唱歌聲，依據分離出的該原唱歌聲辨識一原唱者的身分，並根據該原唱者的身分，載入對應該原唱者的該原唱者音準模型。
如請求項13所述之輔助歌唱系統，其中該處理裝置還從一歌曲檔案分離出一伴奏音樂及一原唱歌聲。
如請求項17所述之輔助歌唱系統，該處理裝置依據分離出的該原唱歌聲辨識一原唱者的身分，並根據該原唱者的身分，載入對應該原唱者的該原唱者聲學模型。
一種輔助歌唱方法，包括：由一收音裝置接收一演唱歌聲；由一處理裝置判斷該演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序，該音準調整程序配合包括一編碼器及一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將一原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該編碼器中，以獲得一使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該編碼器中，以獲得一原唱者基頻；將該使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的該解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲；及由一播放裝置輸出經調整音準的該演唱歌聲。
一種非暫態電腦可讀取記錄媒體，包括複數指令，於一電腦系統的至少一處理器執行該複數指令時致使該電腦系統執行下列步驟：判斷一演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序，該音準調整程序配合包括一編碼器及一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將一原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該編碼器中，以獲得一使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該編碼器中，以獲得一原唱者基頻；將該使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的該解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲。
一種輔助歌唱系統，包括：一收音裝置，接收一使用者的一演唱歌聲；一處理裝置，判斷該演唱歌聲的一演唱音準相比於一原唱歌聲的一原唱音準是否一致，若不一致，則對該演唱歌聲執行一音準調整程序配合包括一編碼器及一解碼器的一音準模型執行，該音準模型經由該原唱者訓練資料訓練之後獲得一原唱者音準模型，該音準模型經由該使用者訓練資料訓練之後獲得一使用者音準模型，該音準調整程序包括：將該演唱歌聲轉換為一使用者聲音頻譜；將一原唱歌聲轉換為一原唱者聲音頻譜；輸入該使用者聲音頻譜至該使用者音準模型中的該編碼器中，以獲得一使用者聲學特徵；輸入該原唱者聲音頻譜至該原唱者音準模型中的該編碼器中，以獲得一原唱者基頻；將該使用者聲學特徵及該原唱者基頻輸入至該使用者音準模型中的該解碼器；從該使用者音準模型中的該解碼器的輸出獲得經調整的該使用者聲音頻譜；及將經調整的該使用者聲音頻譜轉換為經調整音準的該演唱歌聲；及一播放裝置，輸出經調整音準的該演唱歌聲。