TWI631554B

TWI631554B - Encoding device and method, decoding device and method, and program

Info

Publication number: TWI631554B
Application number: TW103117774A
Authority: TW
Inventors: 畠中光行; 知念徹; 山本優樹; 史潤宇
Original assignee: 日商新力股份有限公司
Priority date: 2013-05-31
Filing date: 2014-05-21
Publication date: 2018-08-01
Also published as: US9905232B2; EP3007166B1; EP3007166A1; EP3007166A4; CN105247610B; US20160133260A1; JP6465020B2; WO2014192604A1; TW201503109A; CN105247610A; JPWO2014192604A1

Abstract

本技術是有關於，能夠提升音訊訊號之傳輸效率的編碼裝置及方法、解碼裝置及方法、以及程式。

識別資訊生成部，係基於音訊訊號，而判定是否將音訊訊號予以編碼，並生成表示該判定結果的識別資訊。編碼部，係僅將被認為要編碼的音訊訊號，予以編碼。打包部係生成含有識別資訊、和已被編碼之音訊訊號的位元串流。如此，僅有進行過編碼的音訊訊號會被儲存至位元串流中，將各表示是否將音訊訊號予以編碼的識別資訊儲存至位元串流中，藉此可提升音訊訊號的傳輸效率。本技術係可適用於編碼器及解碼器。

Description

編碼裝置及方法、解碼裝置及方法、以及程式

本技術係有關於編碼裝置及方法、解碼裝置及方法、以及程式，尤其是有關於，能夠提升音訊訊號之傳輸效率的編碼裝置及方法、解碼裝置及方法、以及程式。

例如，作為將音訊訊號予以編碼之方法，係有國際標準化規格的MPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding)或MPEG-4 AAC規格的多聲道編碼，為人所知(例如參照非專利文獻1)。

〔先前技術文獻〕〔非專利文獻〕

〔非專利文獻1〕INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3：Audio

順便一提，為了傳輸超越先前的5.1聲道音響再生、更高臨場感之再生、或複數音素材(物件)，必須要使用更多的音訊聲道的編碼技術。

例如，以256kbps進行31聲道之編碼的情況下，MPEG AAC規格之編碼時，每1聲道、且1音訊音框的平均可使用位元量係為176位元程度。可是，在此程度之位元數下，使用一般的純量編碼，進行16kHz以上之高頻域之編碼時，有很高的可能係會造成大幅的音質劣化。

另一方面，在既存的音訊編碼中，即使對於無聲或視為等同於其之訊號仍會進行編碼處理，因此編碼所需的位元量仍需要不少。

在多聲道的低位元速率編碼中，儘可能確保編碼聲道中所能使用的位元量是很重要的，但於MPEG AAC規格之編碼中，無聲音框編碼所需的位元量，係於各音框每1元素會是30位元至40位元。因此，同一音框內，無聲的聲道數越多，無聲之編碼所必需的位元量就越會變成無法忽視。

如以上，在上述的技術中，作為音訊訊號係為無聲或視為無聲之訊號等，有並不一定需要編碼的訊號存在時，並沒有辦法將音訊訊號予以高效率地傳輸。

本技術係有鑑於此種狀況而研發，係使音訊訊號的傳輸效率能夠提升。

本技術之第1側面的編碼裝置，係具備：編碼部，係若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；和打包部，係生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

編碼裝置中係可還設置有：識別資訊生成部，係基於前記音訊訊號而生成前記識別資訊。

可令前記識別資訊生成部，若前記音訊訊號是無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。

可令前記識別資訊生成部，若前記音訊訊號是可視為無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。

可令前記識別資訊生成部，基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而特定出前記音訊訊號是否為可視為無聲之訊號。

本技術之第1側面的編碼方法或程式，係含有以下步驟：若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

在本技術的第1側面中，若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則前記音訊訊號會被編碼，若前記識別資訊是不要編碼之意旨的資訊時，則前記音訊訊號不會被編碼；位元串流會被生成，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

本技術之第2側面的解碼裝置，係具備：取得部，係取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；和抽出部，係從前記位元串流抽出前記識別資訊及前記音訊訊號；和解碼部，係將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼。

可令前記解碼部，將前記音訊訊號視為無聲訊號而予以解碼時，藉由將MDCT係數設成0而進行IMDCT處理以生成前記音訊訊號。

本技術之第2側面的解碼方法或程式，係含有以下步驟：取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流抽出前記識別資訊及前記音訊訊號；將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼。

在本技術的第2側面中，位元串流會被取得，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流會抽出前記識別資訊及前記音訊訊號；從前記位元串流所抽出之前記音訊訊號會被解碼，並且前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號會被視為無聲訊號而被解碼。

若依據本技術的第1側面及第2側面，則可提升音訊訊號的傳輸效率。

11‧‧‧編碼器

21‧‧‧識別資訊生成部

22‧‧‧編碼部

23‧‧‧打包部

24‧‧‧輸出部

31‧‧‧時間頻率轉換部

51‧‧‧解碼器

61‧‧‧取得部

62‧‧‧抽出部

63‧‧‧解碼部

64‧‧‧輸出部

71‧‧‧頻率時間轉換部

501‧‧‧CPU

502‧‧‧ROM

503‧‧‧RAM

504‧‧‧匯流排

505‧‧‧輸出入介面

506‧‧‧輸入部

507‧‧‧輸出部

508‧‧‧記錄部

509‧‧‧通訊部

510‧‧‧驅動機

511‧‧‧可移除式媒體

EL1~ELn‧‧‧元素

F11~F13‧‧‧音框

〔圖1〕位元串流的說明圖。

〔圖2〕編碼之需要與否的說明圖。

〔圖3〕各音框之每一聲道的編碼狀況的說明圖。

〔圖4〕位元串流之構成的說明圖。

〔圖5〕識別資訊的說明圖。

〔圖6〕DSE的說明圖。

〔圖7〕DSE的說明圖。

〔圖8〕編碼器之構成例的圖示。

〔圖9〕說明識別資訊生成處理的流程圖。

〔圖10〕說明編碼處理的流程圖。

〔圖11〕解碼器之構成例的圖示。

〔圖12〕說明解碼處理的流程圖。

〔圖13〕電腦之構成例的圖示。

以下，參照圖面，說明適用了本技術的實施形態。

〈第1實施形態〉〈關於本技術之概要〉

本技術係藉由，在多聲道之音訊訊號中，將無聲或符合視為等同於其之條件、不需要傳輸之聲道的音框單位之編碼資料不予以傳輸，以提升音訊訊號之傳輸效率。此時，在解碼側，係每一音框地，發送表示表示是否將各聲道之音訊訊號予以編碼的識別資訊，藉此，於解碼側中就可將所被傳輸過來的編碼資料分配給正確的聲道。

此外，以下，雖然針對多聲道之音訊訊號是依照AAC規格而被編碼的情形加以說明，但以其他方式而被編碼的情況下也是進行同樣的處理。

例如，多聲道之音訊訊號是依照AAC規格而被編碼、傳輸的情況下，各聲道之音訊訊號係每一音框地被編碼而傳輸。

具體而言係如圖1所示，已被編碼之音訊訊號、或音訊訊號之解碼等所必須之資訊，是被儲存在複數元素(位元串流元素)中，由這些元素所成的位元串流，會被傳輸。

在此例中，在1音框份的位元串流裡，係從開頭起依序配置有n個元素EL1乃至元素ELn，最後配置有表示這是關於該當音框之資訊之末端位置的識別元TERM。

例如，被配置在開頭的元素EL1，係為稱作DSE(Data Stream Element)的輔助資料領域，DSE中係描述有，音訊訊號的關於降轉混音之資訊或識別資訊等，關於複數之各聲道的資訊。

元素EL1之後接續的元素EL2乃至元素ELn中，係儲存有已被編碼之音訊訊號。尤其是，單聲道之音訊訊號所被儲存的元素係稱為SCE，成對的2個聲道之音訊訊號所被儲存的元素係稱為CPE。

在本技術中，係針對無聲或可視為無聲之聲道的音訊訊號係不進行編碼，此種不進行編碼之聲道的音訊訊號，係不被儲存在位元串流中。

可是，1或複數聲道的音訊訊號未被儲存在位元串流的情況下，要特定出位元串流中所含之音訊訊號是哪個聲道之訊號，會變得困難。於是，在本技術中，表示是否將各聲道之音訊訊號予以編碼的識別資訊會被生成，而被儲存在DSE中。

例如，如圖2所示般地，連續之音框F11乃至音框F13的音訊訊號，會被編碼。

此種情況下，編碼器係針對這些每一音框，特定出是否將音訊訊號予以編碼。例如，編碼器係基於音訊訊號之振幅，特定出音訊訊號是否為無聲之訊號。然後，音訊訊號是無聲之訊號、或視為無聲之訊號的情況下，則該音框之音訊訊號係被設成不被編碼。

在圖2的例子中，例如，音框F11與音框F13的音訊訊號並非無聲，因此會被編碼，音框F12的音訊訊號系為無聲之訊號，因此被設成不會被編碼。

如此，編碼器係每一音框地針對各聲道判定是否進行音訊訊號之編碼，而進行音訊訊號之編碼。

此外，更詳細而言，R聲道與L聲道等，2個聲道是成對時，會針對1個配對而決定是否進行編碼。例如R聲道與L聲道係為成對，這些聲道的音訊訊號會被編碼而被儲存在1個CPE(元素)中。

此種情況下，R聲道與L聲道之雙方的音訊訊號，係皆為無聲或可視為無聲的訊號時，這些音訊訊號之編碼就不會被進行。亦即，當2個聲道的音訊訊號的其中只要1個不是無聲的音訊訊號時，則這2個音訊訊號之編碼會被進行。

若像這樣，每一聲道地，更詳細而言是每一元素地一面進行是否要編碼之判定，一面進行各聲道之音訊訊號之編碼，則如圖3所示，只有非無聲之有聲的音訊訊號會被編碼。

在圖3中，圖中縱方向係表示聲道，橫方向係表示時間、亦即音框。在此例中，例如在第1音框，聲道CH1乃至聲道CH8的8個聲道的音訊訊號係全部會被編碼。

又，在2音框中，聲道CH1、聲道CH2、聲道CH5、聲道CH7、及聲道CH8的5個聲道的音訊訊號會被編碼，其他聲道的音訊訊號之編碼係不會進行。

然後，在6音框中係只有聲道CH1的音訊訊號會被編碼，其他聲道的音訊訊號之編碼係不會進行。

在如圖3所示的音訊訊號之編碼被進行時，僅如圖4而被編碼的音訊訊號會被依序排列並打包，傳輸至解碼器。在此例中，尤其在第6音框中，僅聲道CH1的音訊訊號會被傳輸，因此可大幅削減位元串流的資料量，其結果為，可提升傳輸效率。

又，如編碼器係圖5所示，每一音框地生成表示是否進行各聲道、更詳細而言是各元素之編碼的識別資訊，連同已被編碼之音訊訊號一起發送至解碼器。

在圖5中，各四角形內所記載的數值「0」，係表示進行過編碼之意旨的識別資訊，各四角形內所記載的數值「1」，係表示未進行編碼之意旨的識別資訊。編碼器所生成的1音框中的1聲道(元素)份的識別資訊，係可用1位元來描述。此種各聲道(元素)之識別資訊，係每一音框地被描述在DSE中。

如此，每一元素地判定是否進行音訊訊號的編碼，因應需要而將已被編碼之音訊訊號、和表示各元素之編碼是否進行過的識別資訊，描述在位元串流中而予以傳輸，藉此可提升音訊訊號的傳輸效率。又，未被傳輸之音訊訊號之部分的位元量，亦即所削減之部分的資料量，係亦可被分配成為進行傳輸之其他音框或現音框的其他音訊訊號的編碼量。藉由如此設計，就可提升進行編碼的音訊訊號的聲音音質。

此外，此處為了針對以AAC進行編碼之例子，因此每一位元串流元素地生成識別資訊，但在其他方式中係只要因應需要而每一聲道地生成識別資訊。

以上說明的識別資訊等是被描述在DSE中的情況下，例如DSE中係描述有圖6及圖7所示的資訊。

圖6係圖示了DSE中所含之「3da_fragmented_header」的語法。在該資訊中，作為表示位元串流中所含之音訊元素之數目，亦即表示SCE或CPE等含有已被編碼之音訊訊號的元素之數目的資訊，而被描述有「num_of_audio_element」。

又，在「num_of_audio_element」之後，作為表示各元素是單聲道之元素、或聲道對之元素，亦即是SCE還是CPE的資訊，而被描述有「element_is_cpe[i]」。

然後，圖7係圖示了DSE中所含之「3da_fragmented_data」的語法。

在該資訊中係描述有，表示DSE中是否含有圖6所示之「3da_fragmented_header」的旗標「3da_fragmented_header_flag」。

又，「3da_fragmented_header_flag」之值為「1」的情況下，亦即係為DSE中描述有圖6所示之「3da_fragmented_header」之意旨的值的情況下，係在「3da_fragmented_header_flag」之後配置有「3da_fragmented_header」。

又，在「3da_fragmented_data」中係描述有，相符於音訊訊號所被儲存之元素之數目的識別資訊「fragment_element_flag[i]」。

〈編碼器之構成例〉

其次，說明適用了本技術之編碼器的具體的實施形態。

圖8係適用了本技術之編碼器之構成例的圖示。

編碼器11係由：識別資訊生成部21、編碼部22、打包部23、及輸出部24所構成。

識別資訊生成部21，係基於從外部所供給之音訊訊號，而每一元素地，判定是否將各元素之音訊訊號予以編碼，生成表示該判定結果的識別資訊。識別資訊生成部21，係將已生成之識別資訊，供給至編碼部22及打包部23。

編碼部22，係參照從識別資訊生成部21所供給之識別資訊，因應需要而將從外部所供給之音訊訊號予以編碼，將已被編碼之音訊訊號(以下亦稱作編碼資料) 供給至打包部23。又，編碼部22，係具備將音訊訊號進行時間頻率轉換的時間頻率轉換部31。

打包部23係將將從識別資訊生成部21所供給之識別資訊、和從編碼部22所供給之編碼資料予以打包而生成位元串流，供給至輸出部24。輸出部24，係將從打包部23所供給之位元串流，輸出至解碼器。

〈識別資訊生成處理之說明〉

接下來，說明編碼器11之動作。

首先，參照圖9之流程圖，說明編碼器11生成識別資訊的處理亦即識別資訊生成處理。

步驟S11中，識別資訊生成部21係判定是否有輸入資料。例如，從外部新供給了1畫格份的各元素的音訊訊號的情況下，係判定為有輸入資料。

於步驟S11中，若判定為有輸入資料，則於步驟S12中，識別資訊生成部21係判定是否計數器i<元素數。

例如識別資訊生成部21係保持著表示第幾個元素是處理對象的計數器i，在針對新的音框而開始音訊訊號之編碼的時點上，計數器i之值係被設成0。

於步驟S12中，若為計數器i<元素數，亦即針對處理對象之音框，尚未處理全部的元素時，則處理係前進至步驟S13。

於步驟S13中，識別資訊生成部21係判定，處理對象的第i個元素，是否為不需要編碼的元素。

例如，識別資訊生成部21係若處理對象之元素之音訊訊號在各時刻上的振幅是所定閾值以下時，則該元素之音訊訊號係被當成無聲或視為無聲，而視為不需要編碼的元素。

此時，構成元素的音訊訊號是2聲道份的音訊訊號的情況下，當2個音訊訊號都是無聲或視為無聲時，元素之編碼就不需要。

又，亦可為，例如只有在所定的時刻，音訊訊號之振幅是大於閾值，而該時刻之振幅部分是雜訊的情況下，則音訊訊號係被視為無聲。

然後，亦可為，例如音訊訊號的振幅(音量)是遠小於同音框之其他聲道的音訊訊號的振幅，且音訊訊號之音源位置、與其他聲道的音訊訊號之音源位置相近時，則音訊訊號就被視為無聲，不被編碼。亦即，在音量較小之音訊訊號的音源附近，有輸出音量較大聲音之其他音源存在時，則該音源的音訊訊號係被視為無聲之訊號。

此種情況下，基於音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及音訊訊號與其他音訊訊號之位準(振幅)，而特定出音訊訊號是否為可視為無聲之訊號。

於步驟S13中，若判定處理對象之元素是不要編碼之元素的情況下，於步驟S14中，識別資訊生成部 21係將該元素的識別資訊ZeroChan[i]之值設成「1」，供給至編碼部22及打包部23。亦即，值為「1」的識別資訊係被生成。

一旦關於處理對象之元素的識別資訊被生成，則計數器i係被增值1，其後，處理係返回步驟S12，重複上述處理。

又，於步驟S13中，若判定處理對象之元素並非不要編碼之元素的情況下，於步驟S15中，識別資訊生成部21係將該元素的識別資訊ZeroChan[i]之值設成「0」，供給至編碼部22及打包部23。亦即，值為「0」的識別資訊係被生成。

又，於步驟S12中，若判定為並非計數器i<元素數，則處理係返回步驟S11，重複進行上述處理。

然後，於步驟S11中，若判定為沒有輸入資料，則亦即針對所有音框，各元素之識別資訊都已被生成時，則識別資訊生成處理係結束。

如以上，編碼器11，係基於音訊訊號而判定各元素之音訊訊號之編碼是否需要，生成各元素之識別資訊。如此，藉由每一元素地生成識別資訊，就可削減進行傳輸的位元串流之資料量，可提升傳輸效率。

〈編碼處理之說明〉

然後，參照圖10的流程圖，說明編碼器11將音訊訊號進行編碼的編碼訊號。該編碼處理係與參照圖9所說明過的識別資訊生成處理同時被執行。

於步驟S41中，打包部23係將從識別資訊生成部21所供給之識別資訊予以編碼。

具體而言，打包部23係基於1音框份的各元素之識別資訊，因應需要而生成含有圖6所示之「3da_fragmented_header」或圖7所示之「3da_fragmented_data」的DSE，進行識別資訊之編碼。

步驟S42中，編碼部22係判定是否有輸入資料。例如，若有尚未處理之音框的各元素之音訊訊號，則判定為有輸入資料。

於步驟S42中，若判定為有輸入資料，則於步驟S43中，編碼部22係判定是否計數器i<元素數。

例如編碼部22係保持著表示第幾個元素是處理對象的計數器i，在針對新的音框而開始音訊訊號之編碼的時點上，計數器i之值係被設成0。

於步驟S43中，若判定為計數器i<元素數，則於步驟S44中，編碼部22係判定從識別資訊生成部21所供給之第i個元素的識別資訊ZeroChan[i]之值是否為「0」。

於步驟S44中，若判定識別資訊ZeroChan[i]之值為「0」，亦即，第i個元素之編碼是需要時，則處理係前進至步驟S45。

於步驟S45中，編碼部22係將從外部所供給之第i個元素的音訊訊號予以編碼。

具體而言，時間頻率轉換部31係對音訊訊號進行MDCT(Modified Discrete Cosine Transform)(修正離散餘弦轉換)，以將音訊訊號從時間訊號轉換成頻率訊號。

又，編碼部22係將對音訊訊號藉由MDCT所得到的MDCT係數予以編碼，獲得比例因數、側面資訊、及量化頻譜。然後，編碼部22係將所得到的比例因數、側面資訊、及量化頻譜，當成將音訊訊號予以編碼所得到之編碼資料，而供給至打包部23。

一旦音訊訊號之編碼被進行，其後，處理係前進至步驟S46。

另一方面，於步驟S44中，若判定識別資訊ZeroChan[i]之值為「1」，亦即第i個元素之編碼為不需要時，則步驟S45之處理係被略過，處理係往步驟S46前進。此時，編碼部22係不進行音訊訊號之編碼。

若於步驟S45中音訊訊號有被編碼，或是於步驟S44中識別資訊ZeroChan[i]之值被判定為「1」，則於步驟S46中，編碼部22係將計數器i之值增值1。

一旦計數器i被更新，則其後，處理係回到步驟S43，重複進行上述之處理。

又，於步驟S43中，若判定為並非計數器i< 元素數，亦即，處理對象之音框的所有元素都進行過編碼，則處理係前進至步驟S47。

於步驟S47中，打包部23係進行識別資訊之編碼所得到的DSE、和從編碼部22所供給之編碼資料的打包，生成位元串流。

亦即，打包部23係針對處理對象之音框，生成含有編碼資料所被儲存之SCE與CPE、及DSE等的位元串流，供給至輸出部24。又，輸出部24，係將從打包部23所供給之位元串流，輸出至解碼器。

一旦1音框份的位元串流被輸出，則其後，處理係回到步驟S42，重複上述之處理。

又，於步驟S42中，若判定為沒有輸入資料，亦即針對所有的音框，位元串流都已被生成而輸出時，則結束編碼處理。

如以上，編碼器11係依照識別資訊而進行音訊訊號之編碼，生成含有識別資訊與編碼資料的位元串流。藉由如此生成含有各元素之識別資訊、和複數元素之中已被編碼之元素之編碼資料的位元串流，就可削減進行傳輸之位元串流的資料量。藉此，可提升傳輸效率。此外，此處係說明了於1音框份的位元串流中，把複數聲道份的識別資訊、亦即複數識別資訊儲存在DSE的例子。可是，例如音訊訊號並非多聲道等情況下，亦可於1音框份的位元串流中，把1聲道份的識別資訊、亦即1個識別資訊儲存在DSE中。

〈解碼器之構成例〉

接著說明，將從編碼器11所輸出之編碼位元串流予以接收並進行音訊訊號之解碼的解碼器。

圖11係適用了本技術之解碼器之構成例的圖示。

圖11之解碼器51係由：取得部61、抽出部62、解碼部63、及輸出部64所構成。

取得部61，係從編碼器11取得位元串流，供給至抽出部62。抽出部62，係從取得部61所供給之位元串流抽出識別資訊，因應需要而設定MDCT係數然後供給至解碼部63，並且從位元串流抽出編碼資料然後供給至解碼部63。

解碼部63係將從抽出部62所供給之編碼資料，予以解碼。又，解碼部63係具備頻率時間轉換部71。頻率時間轉換部71，係基於解碼部63將編碼資料解碼所得到之MDCT係數、或從抽出部62所供給之MDCT係數，而進行IMDCT(Inverse Modified Discrete Cosine Transform)(逆修正離散餘弦轉換)。解碼部63，係將藉由IMDCT所得到之音訊訊號，供給至輸出部64。

輸出部64，係將從解碼部63所供給之各音框之各聲道的音訊訊號，輸出至後段的再生裝置等。

〈解碼處理之說明〉

接下來，說明解碼器51之動作。

解碼器51，係一旦從編碼器11有位元串流被發送過來，則接收該位元串流而開始進行解碼的解碼處理。

以下，參照圖12的流程圖，說明解碼器51所進行的解碼處理。

於步驟S71中，取得部61係將從編碼器11所發送過來的位元串流予以接收，並供給至抽出部62。亦即，位元串流會被取得。

於步驟S72中，抽出部62係從取得部61所供給的位元串流的DSE中，取得識別資訊。亦即，進行識別資訊之解碼。

步驟S73中，抽出部62係判定是否有輸入資料。例如，若有尚未處理之音框，則判定為有輸入資料。

於步驟S73中，若判定為有輸入資料，則於步驟S74中，抽出部62係判定是否計數器i<元素數。

例如抽出部62係保持著表示第幾個元素是處理對象的計數器i，在針對新的音框而開始音訊訊號之解碼的時點上，計數器i之值係被設成0。

於步驟S74中，若判定為計數器i<元素數，則於步驟S75中，抽出部62係判定處理對象之第i個元素的識別資訊ZeroChan[i]之值是否為「0」。

於步驟S75中，若判定識別資訊ZeroChan[i]之值為「0」，亦即，音訊訊號之編碼是有被進行時，則處理係前進至步驟S76。

於步驟S76中，抽出部62，係將處理對象之第i個元素的音訊訊號、亦即編碼資料，予以解包。

具體而言，抽出部62，係從位元串流的處理對象之元素的SCE或CPE，讀出該元素的編碼資料，供給至解碼部63。

於步驟S77中，解碼部63係將從抽出部62所供給之編碼資料予以解碼而求出MDCT係數，供給至頻率時間轉換部71。具體而言，解碼部63基於作為編碼資料而被供給的比例因數、側面資訊、及量化頻譜，而算出MDCT係數。

一旦MDCT係數被算出，則其後，處理係往步驟S79前進。

又，於步驟S75中，若判定識別資訊ZeroChan[i]之值為「1」，亦即，音訊訊號之編碼沒有被進行時，則處理係前進至步驟S78。

於步驟S78中，抽出部62，係在處理對象之元素的MDCT係數序列中代入「0」，供給至解碼部63的頻率時間轉換部71。亦即，處理對象之元素的各MDCT係數係被設成「0」。此情況下，音訊訊號係被視為無聲訊號，而進行音訊訊號之解碼。

一旦MDCT係數被供給至頻率時間轉換部71，則其後，處理係前進至步驟S79。

於步驟S77或步驟S78中，一旦MDCT係數被供給至頻率時間轉換部71，則於步驟S79中，頻率時間轉換部71，係基於從抽出部62或解碼部63所供給之MDCT係數，而進行IMDCT處理。亦即，音訊訊號的頻率時間轉換會被進行，獲得屬於時間訊號的音訊訊號。

頻率時間轉換部71，係將藉由IMDCT處理所得到之音訊訊號，供給至輸出部64。又，輸出部64，係將從頻率時間轉換部71所供給之音訊訊號，輸出至後段。

一旦藉由解碼所得到之音訊訊號被輸出，則抽出部62係將所保持的計數器i增值1，處理係返回步驟S74。

又，於步驟S74中，若判定為並非計數器i<元素數，則處理係返回步驟S73，重複進行上述處理。

然後，於步驟S73中，若判定為沒有輸入資料，亦即針對所有的音框，音訊訊號都已經被解碼時，則結束解碼處理。

如以上，解碼器51係從位元串流抽出識別資訊，隨著識別資訊而進行音訊訊號之解碼。如此，藉由使用識別資訊來進行解碼，就可不必將多餘的資料儲存在位元串流中，可削減進行傳輸之位元串流的資料量。藉此，可提升傳輸效率。

順便一提，上述一連串處理，係可藉由硬體來執行，也可藉由軟體來執行。在以軟體來執行一連串之處理時，構成該軟體的程式，係可安裝至電腦。此處，電腦係包含：被組裝在專用硬體中的電腦，或藉由安裝各種程式而可執行各種機能的例如通用之電腦等。

圖13係以程式來執行上述一連串處理的電腦的硬體之構成例的區塊圖。

於電腦中，CPU501、ROM502、RAM503係藉由匯流排504而被彼此連接。

在匯流排504上係還連接有輸出入介面505。輸出入介面505上係連接有：輸入部506、輸出部507、記錄部508、通訊部509、及驅動機510。

輸入部506，係由鍵盤、滑鼠、麥克風、攝像元件等所成。輸出部507係由顯示器、揚聲器等所成。記錄部508，係由硬碟或非揮發性記憶體等所成。通訊部509係由網路介面等所成。驅動機510係驅動：磁碟、光碟、光磁碟、或半導體記憶體等之可移除式媒體511。

在如以上構成的電腦中，藉由CPU501而例如將記錄部508中所記錄之程式透過輸出入介面505及匯流排504，而載入至RAM503裡並加以執行，就可進行上述一連串處理。

電腦(CPU501)所執行的程式，係可記錄在例如封裝媒體等之可移除式媒體511中而提供。又，程式係可透過區域網路，網際網路，數位衛星播送這類有線或無線的傳輸媒介而提供。

在電腦中，程式係藉由將可移除式媒體511裝著至驅動機510，就可透過輸出入介面505，安裝至記錄部508。又，程式係可透過有線或無線之傳輸媒體，以通訊部509接收之，安裝至記錄部508。除此以外，程式係可事前安裝在ROM502或記錄部508中。

此外，電腦所執行的程式，係可為依照本說明書所說明之順序而在時間序列上進行處理的程式，也可平行地，或呼叫進行時等必要之時序上進行處理的程式。

又，本技術的實施形態係不限定於上述實施形態，在不脫離本技術主旨的範圍內可做各種變更。

例如，本技術係亦可將1個機能透過網路而分擔給複數台裝置，採取共通進行處理的雲端運算之構成。

又，上述的流程圖中所說明的各步驟，係可由1台裝置來執行以外，亦可由複數台裝置來分擔執行。

甚至，若1個步驟中含有複數處理的情況下，該1個步驟中所含之複數處理，係可由1台裝置來執行以外，也可由複數台裝置來分擔執行。

甚至，本技術係亦可採取以下構成。

〔1〕一種編碼裝置，係具備：編碼部，係若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；和打包部，係生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

〔2〕如〔1〕所記載之編碼裝置，其中，還具備：識別資訊生成部，係基於前記音訊訊號而生成前記識別資訊。

〔3〕如〔2〕所記載之編碼裝置，其中，前記識別資訊生成部，係若前記音訊訊號是無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。

〔4〕如〔2〕所記載之編碼裝置，其中，前記識別資訊生成部，係若前記音訊訊號是可視為無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。

〔5〕如〔4〕所記載之編碼裝置，其中，前記識別資訊生成部，係基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而特定出前記音訊訊號是否為可視為無聲之訊號。

〔6〕一種編碼方法，係含有以下步驟：若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

〔7〕一種程式，係令電腦執行包含以下步驟之處理：若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素。

〔8〕一種解碼裝置，係具備：取得部，係取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；和抽出部，係從前記位元串流抽出前記識別資訊及前記音訊訊號；和解碼部，係將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼。

〔9〕如〔8〕所記載之解碼裝置，其中，前記解碼部，係將前記音訊訊號視為無聲訊號而予以解碼時，藉由將MDCT係數設成0而進行IMDCT處理以生成前記音訊訊號。

〔10〕一種解碼方法，係含有以下步驟：取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流抽出前記識別資訊及前記音訊訊號；將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼。

〔11〕一種程式，係令電腦執行包含以下步驟之處理：取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流抽出前記識別資訊及前記音訊訊號；將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼。

Claims

一種編碼裝置，係具備：編碼部，係若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；和打包部，係生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；和識別資訊生成部，係基於前記音訊訊號而生成前記識別資訊；前記識別資訊生成部，係基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而特定出前記音訊訊號是否為可視為無聲之訊號；若前記音訊訊號是可視為無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。
如請求項1所記載之編碼裝置，其中，前記識別資訊生成部，係若前記音訊訊號是無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。
一種編碼方法，係含有以下步驟：若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；基於前記音訊訊號而生成前記識別資訊；在生成前記識別資訊之步驟中，基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而特定出前記音訊訊號是否為可視為無聲之訊號；若前記音訊訊號是可視為無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。
一種程式，係令電腦執行包含以下步驟之處理：若表示是否將音訊訊號予以編碼的識別資訊是要進行編碼之意旨的資訊時，則將前記音訊訊號予以編碼，若前記識別資訊是不要編碼之意旨的資訊時，則不將前記音訊訊號予以編碼；生成位元串流，其中含有：前記識別資訊所被儲存的第1位元串流元素、和依照前記識別資訊而被編碼成的1 聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；基於前記音訊訊號而生成前記識別資訊；在生成前記識別資訊之步驟中，基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而特定出前記音訊訊號是否為可視為無聲之訊號；若前記音訊訊號是可視為無聲之訊號時，則生成不要編碼之意旨的前記識別資訊。
一種解碼裝置，係具備：取得部，係取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；和抽出部，係從前記位元串流抽出前記識別資訊及前記音訊訊號；和解碼部，係將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼；前記音訊訊號，係基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而被特定成是否為可視為無聲之訊號；前記識別資訊，係在前記音訊訊號是可視為無聲之訊號時，則表示不要編碼之意旨。
如請求項5所記載之解碼裝置，其中，前記解碼部，係將前記音訊訊號視為無聲訊號而予以解碼時，藉由將MDCT係數設成0而進行IMDCT處理以生成前記音訊訊號。
一種解碼方法，係含有以下步驟：取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流抽出前記識別資訊及前記音訊訊號；將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼；前記音訊訊號，係基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而被特定成是否為可視為無聲之訊號；前記識別資訊，係在前記音訊訊號是可視為無聲之訊號時，則表示不要編碼之意旨。
一種程式，係令電腦執行包含以下步驟之處理：取得位元串流，其中含有：表示是否將音訊訊號予以編碼的識別資訊所被儲存的第1位元串流元素、和依照要進行編碼之意旨的前記識別資訊而被編碼成的1聲道份的前記音訊訊號所被儲存的複數第2位元串流元素或依照要進行編碼之意旨的前記識別資訊而被編碼成的2聲道份的前記音訊訊號所被儲存的至少1個第3位元串流元素；從前記位元串流抽出前記識別資訊及前記音訊訊號；將從前記位元串流所抽出之前記音訊訊號予以解碼，並且將前記識別資訊是不要編碼之意旨的資訊的前記音訊訊號視為無聲訊號而予以解碼；前記音訊訊號，係基於前記音訊訊號之音源位置、與其他音訊訊號之音源位置的距離，及前記音訊訊號之位準和前記其他音訊訊號之位準，而被特定成是否為可視為無聲之訊號；前記識別資訊，係在前記音訊訊號是可視為無聲之訊號時，則表示不要編碼之意旨。