TWI384459B

TWI384459B - 音框檔頭之自動偵測方法

Info

Publication number: TWI384459B
Application number: TW098124658A
Authority: TW
Inventors: Chu Feng Lien
Original assignee: Mstar Semiconductor Inc
Priority date: 2009-07-22
Filing date: 2009-07-22
Publication date: 2013-02-01
Also published as: TW201104672A; US20110022399A1

Description

音框檔頭之自動偵測方法

本發明有關於進階音訊編碼(advanced audio coding，AAC)技術，尤有關於一種AAC音框檔頭(frame header)之自動偵測方法。

由於音訊壓縮技術的持續發展，在MP3掀起一股潮流之後，MPEG就新的音訊壓縮技術不斷討論，產生了AAC(MPEG-2)以及最新的HE-AAC(high-efficiency AAC)(MPEG-4)兩個重要的音訊壓縮標準。其中，HE-AAC結合AAC技術及頻段複製(Spectral Band Replication)技術，壓縮效率比AAC提升至少30%，也領先目前文獻上其他音訊壓縮技術。

第1圖係顯示傳輸流(transport stream，TS)、音訊基本封包流(packetized elementary stream，PES)及音框(frame)之間的關係圖。AAC串流(bit stream)的核心是音框，每一個音框包含一音框檔頭及一音框壓縮資料塊(raw data block)。一般音框壓縮資料塊係包含2048、或1024、或512、或256個時間域取樣點。AAC標準為每一個音框定義了一個ADTS(audio data transport stream)檔頭，而HE-AAC標準則為每一個音框定義了一個LOAS(low-overhead audio stream)檔頭或LATM(low-overhead MPEG-4 audio transport multiplex)檔頭，來記錄音框的相關解碼資訊。另一方面，音框的外層是音訊PES，亦即音框係裝載於PES的承載資料部分(PES payload)，而在音訊PES的外層則是TS封包，適合雜訊干擾較多的使用環境中傳輸。

一般TS串流可能混雜了上述二種音訊標準，接收端裝置之資訊流語法解析器(stream information parser)接收TS串流後，對每一個TS封包進行語法解析，若發現一TS封包的資料形式(stream_type)欄位的值等於0xF時(例如：PMT中的stream_type欄位)，表示其相對應之音訊PES係支援MPEG-2 AAC音訊壓縮標準且內含之音框具有一ADTS檔頭，習知資訊流語法解析器會在後級的音訊解碼器(audio decoder)開始解碼前將ADTS檔頭的同步碼(sync word)0xFFF填入音訊解碼器，以便AAC解碼器根據同步碼0xFFF在一連串輸入音框中，來辨識ADTS檔頭或ADTS音框。反之，若發現TS封包的資料形式欄位的值等於0x11時，表示其相對之音訊PES係支援MPEG-4 HE-AAC音訊壓縮標準且內含之音框具有一LOAS檔頭或一LATM檔頭，習知資訊流語法解析器會在後級的音訊解碼器開始解碼前，將LOAS檔頭或LATM檔頭的同步碼0x2B7填入AAC解碼器，以便音訊解碼器根據同步碼0x2B7在一連串輸入音框中，來辨識LOAS音框或LATM音框。

然而，在龐大且複雜的軟硬體動作流程中，只要其中一個環節的程式出錯，例如：若資訊流語法解析器或上層應用程式不小心將錯誤的同步碼填入AAC解碼器，或者，原先TS封包的資料形式欄位與實際音訊檔頭的同步碼不符，都可能使AAC解碼器發生解碼錯誤，甚至該頻道發不出任何聲音，直到使用者切換頻道為止，嚴重影響收訊品質。

有鑑於上述問題，本發明之一目的是提供一種音框檔頭之自動偵測方法，藉由搜尋比對輸入音框的實際內容及預設的同步碼，來增加系統解碼效率及減少程式錯誤的機率。

為達成上述目的，本發明音框檔頭之自動偵測方法係適用於一接收端裝置，該接收端裝置接收一音框串流，每一音框均包含一音框檔頭及一音框壓縮資料塊，該自動偵測方法包含以下步驟：接收一輸入音框；當複數個檔頭旗標之其中之一等於一第一預設值時，對該輸入音框進行相對應的語法分析及音訊解碼；以及，當該輸入音框的前複數個位元等於複數個同步碼之至少其中之一時，將一相對應的檔頭旗標設為該第一預設值並對該輸入音框進行相對應的語法分析及音訊解碼。

茲配合下列圖示、實施例之詳細說明及申請專利範圍，將上述及本發明之其他目的與優點詳述於後。

本發明揭露音框檔頭之自動偵測方法，AAC解碼器係依據實際偵測到的音框內容來作解碼，不再依賴資訊流語法解析器或上層應用程式來作設定，AAC解碼器可獨立運作且避免受外部的程式與環境的影響，進而減少程式出錯的機率，同時，本發明之音框檔頭自動偵測程式具有高度的可攜性(portabitity)。

第2A圖及第2B圖顯示根據本發明具體實施例之AAC音框檔頭自動偵測方法的流程圖，於此實施例中，接收端裝置可同時支援AAC(MPEG-2)以及HE-AAC(MPEG-4)二種標準進行說明，但是本發明之應用並不以此為限，現存或將來發展出來之其他音訊壓縮標準亦可適用於本發明之概念。以下根據第2A圖及第2B圖詳細介紹本實施例的所有步驟。

假設接收端裝置系統初始化之後，LATM旗標及ADTS旗標的初始值等於0(FALSE)。同時，在整個音訊解碼週期中，自動偵測機制持續維持在致能(enable)狀態。

步驟S202：接收一輸入音框。

步驟S204：檢查LATM旗標的值是否為1(TRUE)。若是，跳到步驟S216；否則，跳到步驟S206。於此實施例中，優先比對及優先執行最新的HE-AAC標準，在實際應用時本技術領域者可根據需求來調整比對及執行的優先順序。

步驟S206：檢查ADTS旗標的值是否為1。若是，跳到步驟S220；否則，跳到步驟S208。

步驟S208：檢查該輸入音框的前11個位元是否等於0x2B7。若是，跳到步驟S210；否則，跳到步驟S212。本步驟及步驟S212的目的係從輸入音框的最前端開始搜尋同步碼(sync word)，於此實施例中，由於是優先比對及優先執行HE-AAC標準，故從具有最高優先權的HE-AAC同步碼0x2B7進行比對。

步驟S210：將LATM旗標設為1，較佳地，LATM旗標及ADTS旗標中只有其中之一會被設為1。

步驟S212：檢查輸入音框的前12個位元是否等於0xFFF。若是，跳到步驟S214；否則，跳到步驟S228。於此實施例中，當具有最高優先權的HE-AAC同步碼0x2B7比對失敗之後，才接著比對具有次高優先權的AAC同步碼0xFFF。

步驟S214：將ADTS旗標設為1。

步驟S216：對該輸入音框之音框檔頭進行LATM檔頭之語法分析。在比對同步碼時，有可能比對到的0x2B7或0xFFF只是音框壓縮資料塊中的其中一筆資料，而非真正的音框檔頭同步碼，因此必須進一步確認比對到的0x2B7或0xFFF之後的資料是否真正符合ADTS或LATM檔頭的邏輯與規範。

步驟S218：判斷該音框檔頭是否符合LATM檔頭的邏輯與規範。若是，跳到步驟S224；否則，跳到步驟S228。

步驟S220：對該輸入音框之音框檔頭進行ADTS檔頭的語法分析。

步驟S222：判斷該音框檔頭是否符合ADTS檔頭的邏輯與規範。若是，跳到步驟S224；否則，跳到步驟S228。

步驟S224：對該輸入音框之音框壓縮資料塊進行音訊解碼，以確認是否能依照步驟S216或步驟S220解得的音框檔頭資訊來正確解碼。

步驟S226：判斷音訊解碼是否成功。若是，跳到步驟S202；否則，跳到步驟S228。

步驟S228：丟棄輸入音框的最前端的m個位元組。其中，m為正整數。

步驟S230：將LATM旗標及ADTS旗標重設為0。再回到步驟S202。

在步驟S228中，較佳地，m值大小取決於該接收端裝置之處理時間。舉例而言，在搜尋比對同步碼時，由於接收端裝置之處理時間很短，只要目前輸入音框的最前端的11或12個位元與二個同步碼都不符時，隨即丟棄輸入音框的最前端的一個位元組(m=1)，下一次再從下一個位元組開始比對，透過地毯式的搜尋，頂多比對一個至二個音框的資料，就能搜尋到同步碼。熟知此項技術之人士可以了解，實際應用時有其它不同的作法也可達到相同的功效，舉例而言，設置一個比對指標(pointer)來當作索引，當比對同步碼失敗時，將比對指標值加1。極端的情況會耗費掉接收端裝置最多的處理時間，舉例而言，比對同步碼成功且音框檔頭亦符合LATM檔頭或ADTS檔頭的邏輯與規範、但對該音框壓縮資料塊進行音訊解碼的結果卻失敗時，通常在接收端裝置發現上述情況產生時，其實已經耗費掉一大段時間，而在同一段時間內，TS也源源不絕的饋入接收端裝置，由於接收端裝置通常不會儲存TS，因此當接收端裝置發現音訊解碼的結果失敗時，原先產生音訊解碼錯誤的TS有可能早就被後續的TS覆寫了(overwrite)，此時，接收端裝置只能從新的TS再重新比對搜尋同步碼了。

於此實施例中，揭露比對LATM檔頭及ADTS檔頭的二種同步碼，但是本發明之應用並不以此為限。在另一實施例中，可同時比對p個檔頭的同步碼(p≧2)及設定p個檔頭旗標，同時也必須設定一優先順序，以決定優先比對及優先執行的順序，較佳地，p個檔頭旗標中只有其中之一會被設為1。換言之，當目前輸入音框的最前端的11或12個位元與二個(含)以上的同步碼相符時，根據前述優先順序，設定具有最高優先權的的檔頭旗標，並對該音框檔頭進行相對應的語法分析及對該音框壓縮資料塊進行相對應的音訊解碼。

於此實施例中，一旦輸入音框的檔頭同步碼被比對出來，且後續的語法分析及音訊解碼都成功的話，其相對應的檔頭旗標就會持續地被設定為1。據此，後續的音框就能省去檔頭同步碼比對時間，提升整體系統的解碼效率。即使發生語法分析錯誤或解碼錯誤，藉由本發明實施例所揭露之自我修復(recovery)的機制，可以在短時間內搜尋到檔頭同步碼，快速地恢復正常運作，而不會像先前技術一樣，從此發不出聲音直到切換頻道為止。

綜上所述，本發明揭露一種音框檔頭之自動偵測方法，適用於一接收端裝置根據複數個檔頭旗標而運作，自動偵測方法包含以下步驟：接收端裝置接收輸入音框，其包含一音框檔頭及一音框壓縮資料塊；當該些檔頭旗標之其中之一等於第一預設值時，對輸入音框進行相對應的語法分析及音訊解碼；以及當輸入音框的前複數個位元等於複數個同步碼之至少其中之一時，將一相對應的檔頭旗標設為第一預設值並對輸入音框進行相對應的語法分析及音訊解碼。

以上雖以實施例說明本發明，但並不因此限定本發明之範圍，只要不脫離本發明之要旨，該行業者可進行各種變形或變更。

第1圖係顯示傳輸流、音訊PES及音框之間的關係圖。

第2A圖及第2B圖是根據本發明一具體實施例之音框檔頭自動偵測方法的流程圖。

Claims

一種音框檔頭(frame header)之自動偵測方法，適用於一接收端裝置根據複數個檔頭旗標而運作，該自動偵測方法包含以下步驟：(a)該接收端裝置接收一輸入音框，其包含一音框檔頭及一音框壓縮資料塊；(b)當該些檔頭旗標之其中之一等於一第一預設值時，對該輸入音框進行相對應的語法分析及音訊解碼；以及(c)當該輸入音框的前複數個位元等於複數個同步碼之至少其中之一時，將一相對應的檔頭旗標設為該第一預設值並對該輸入音框進行相對應的語法分析及音訊解碼。
如申請專利範圍第1項所記載之自動偵測方法，更包含步驟(d1)：當該語法分析失敗時，丟棄該輸入音框的前m個位元組資料並將該些檔頭旗標設為一第二預設值，其中m為正整數。
如申請專利範圍第1項所記載之自動偵測方法，更包含步驟(d2)：當該音訊解碼失敗時，丟棄該輸入音框的前m個位元組資料並將該些檔頭旗標設為一第二預設值，其中，m為正整數。
如申請專利範圍第1項所記載之自動偵測方法，更包含步驟(d3)：當該輸入音框的前複數個位元不等於該些同步碼時，丟棄該輸入音框的前m個位元組資料並將該些檔頭旗標設為一第二預設值，其中，m為正整數。
如申請專利範圍第1項所記載之自動偵測方法，更包含步驟(e)：重複執行前述所有步驟。
如申請專利範圍第1項所記載之自動偵測方法，其中該步驟(c)係根據一優先順序，將該相對應的檔頭旗標設為該第一預設值並對該輸入音框進行相對應的語法分析及音訊解碼。
如申請專利範圍第1項所記載之自動偵測方法，其中該步驟(b)係根據具有該第一預設值之該檔頭旗標，對該音框檔頭進行相對應的語法分析及對該音框壓縮資料塊進行相對應的音訊解碼。
如申請專利範圍第6項所記載之自動偵測方法，其中該步驟(c)包含：當該輸入音框的前複數個位元等於該些同步碼之至少其中之一時，根據該優先順序，決定一個具有最高優先權的同步碼；根據該具有最高優先權的同步碼，將相對應的檔頭旗標設為該第一預設值；以及根據該具有最高優先權的同步碼，對該音框檔頭進行相對應的語法分析及對該音框壓縮資料塊進行相對應的音訊解碼。
如申請專利範圍第8項所記載之自動偵測方法，其中該些檔頭旗標至少包含一第一檔頭旗標及一第二檔頭旗標，該些同步碼至少包含一第一同步碼及一第二同步碼，其中，該第一同步碼的優先權高於該第二同步碼。
如申請專利範圍第9項所記載之自動偵測方法，其中該第一同步碼等於0x287，且該第二同步碼等於0xFFF。
如申請專利範圍第4項所記載之自動偵測方法，其中該步驟(d3)係當該輸入音框的前複數個位元不等於該些同步碼時，m等於1。
如申請專利範圍第2項所記載之自動偵測方法，其中m大小取決於該接收端裝置之處理時間。
如申請專利範圍第3項所記載之自動偵測方法，其中m大小取決於該接收端裝置之處理時間。
如申請專利範圍第1項所記載之自動偵測方法，其中在系統初始化時，各檔頭旗標被設為該第二預設值。
如申請專利範圍第1項所記載之自動偵測方法，其中該音框檔頭係為一AAC音框檔頭。