TWI494917B - 音頻識別方法及裝置 - Google Patents

音頻識別方法及裝置 Download PDF

Info

Publication number
TWI494917B
TWI494917B TW102131132A TW102131132A TWI494917B TW I494917 B TWI494917 B TW I494917B TW 102131132 A TW102131132 A TW 102131132A TW 102131132 A TW102131132 A TW 102131132A TW I494917 B TWI494917 B TW I494917B
Authority
TW
Taiwan
Prior art keywords
audio file
audio
feature information
time
peak
Prior art date
Application number
TW102131132A
Other languages
English (en)
Other versions
TW201432674A (zh
Inventor
hai-long Liu
Da-Dong Xie
Jie Hou
Bin Xiao
Xiao Liu
Bo Chen
Original Assignee
Tencent Tech Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Tech Shenzhen Co Ltd filed Critical Tencent Tech Shenzhen Co Ltd
Publication of TW201432674A publication Critical patent/TW201432674A/zh
Application granted granted Critical
Publication of TWI494917B publication Critical patent/TWI494917B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H5/00Instruments in which the tones are generated by means of electronic generators
    • G10H5/005Voice controlled instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stereophonic System (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Auxiliary Devices For Music (AREA)

Description

音頻識別方法及裝置
本發明涉及網際網路領域,尤其涉及一種音頻識別方法及裝置。
隨著網際網路的發展,網際網路已成為人們生活必不可少的資訊獲取工具,利用網際網路設備實現未知音頻的識別,成為一種新的應用趨勢。傳統的音頻識別方法主要包括以下步驟,首先,用戶人工輸入未知音頻檔的基本資訊,例如:輸入未知音頻檔包含的歌詞、輸入未知音頻檔的名稱、輸入未知音頻檔的演唱者等等基本資訊;其次,基於輸入的基本資訊,通過網際網路設備(例如:網際網路中的終端或伺服器)查找該未知音頻檔完整資訊。上述可知,傳統的音頻識別方法需要人工輸入基本資訊,然而,大部分情況下,用戶可能並不知道未知音頻檔的基本資訊,或者用戶獲得的未知音頻檔的基本資訊有誤,從而無法實現有效的資訊輸入,例如:用戶可能聽到周圍環境中的一小段音樂,但並不清楚該音樂的其他資訊,無法進行有效輸入;或者,用戶可以哼唱某段歌曲的一小段旋律,但並不清楚該歌曲的其他資訊,無法進行有效輸入。上述情況下,採用傳統的音頻識別方法則無法對未知音頻檔進行識別,降低了網際網路設備的 智慧性。
本發明實施例提供一種音頻識別方法及裝置,可自動採集和分析待識別的音頻檔,提升音頻識別的準確性,提升音頻識別的智慧性。
本發明第一方面提供一種音頻識別方法,可包括:接收音頻識別請求時,採集待識別的第一音頻檔,並計算第一音頻檔的第一特徵資訊;從預置資料庫查找與第一特徵資訊相匹配的至少一個第二特徵資訊,並獲取至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料;將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。
本發明第二方面提供一種音頻識別裝置,可包括:採集模組,用於在接收音頻識別請求時,採集待識別的第一音頻檔;計算模組,用於計算第一音頻檔的第一特徵資訊;識別模組,用於從預置資料庫查找與第一特徵資訊相匹配的至少一個第二特徵資訊;獲取模組,用於獲取至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料;結果輸出模組,用於將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。
實施本發明實施例,具有如下有益效果:本發明實施例中,在接收音頻識別請求時,自動採集待識別的第一音頻檔,無需用戶人工輸入待識別的第一音頻檔的基本資訊,從而提升了音頻識別的智慧性。另外,計算第一音頻檔的第一特徵資訊,基於第一特徵資訊從預置資料庫查找相匹配的第二音頻檔的屬性資料,並將第二音頻 檔的屬性資料作為第一音頻檔的識別結果進行輸出;本發明實施例基於特徵資訊進行音頻識別,當音頻檔確定時,音頻檔的特徵資訊也是確定的,基於確定的特徵資訊進行音頻識別,提升了音頻識別的準確性,同時提升了音頻識別的智慧性。
S101~S105‧‧‧步驟
s1201~s1204‧‧‧步驟
s1211~s1215‧‧‧步驟
s1301~s1305‧‧‧步驟
101‧‧‧採集模組
102‧‧‧計算模組
103‧‧‧識別模組
104‧‧‧獲取模組
105‧‧‧結果輸出模組
1201‧‧‧時頻分析單元
1202‧‧‧特徵提取單元
1203‧‧‧配對處理單元
1204‧‧‧計算單元
1211‧‧‧分幀處理子單元
1212‧‧‧變換子單元
1213‧‧‧幅度提取子單元
1214‧‧‧繪製子單元
1215‧‧‧拆分子單元
1301‧‧‧比對單元
1302‧‧‧加權處理單元
1303‧‧‧候選列表生成單元
1304‧‧‧相關性計算單元
1305‧‧‧匹配單元
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的圖式僅僅是本發明的一些實施例,對於本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些圖式獲得其他的附圖。
圖1為本發明實施例提供的一種音頻識別方法的流程圖;圖2為圖1所示的步驟S102的實施例的流程圖;圖3為圖2所示的步驟s1201的實施例的流程圖;圖4為圖1所示的步驟S103的實施例的流程圖;圖5為本發明實施例提供的一種音頻識別裝置的結構示意圖;圖6為圖5所示的計算模組的實施例的結構示意圖;圖7為圖6所示的時頻分析單元的實施例的結構示意圖;圖8為圖5所示的識別模組的實施例的結構示意圖。
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的 實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬於本發明保護的範圍。
本發明實施例中,音頻檔的特徵資訊可以為音頻檔的指紋,即第一音頻檔的第一特徵資訊可以為第一音頻檔的指紋;第二音頻檔的第二特徵資訊可以為第二音頻檔的指紋。
音頻檔的指紋指可以代表音頻檔的重要聲學特徵,且基於音頻檔內容的緊緻數位簽名;音頻檔的指紋要求感知(或內容)相似性,具備區分性、魯棒性、粒度等基本特徵。其中,區分性指不同音頻檔的指紋應具有較大的差異,而同一音頻檔的原始記錄的指紋和失真記錄的指紋之間應該具有較小的差異;魯棒性指音頻檔在經歷各種音頻格式變換、通道雜訊干擾等處理後,仍然能夠被識別出來;粒度指即使針對短音頻檔(即音頻檔的長度較短,如5s-10s),也能夠順利識別。另外,音頻檔的指紋在各種應用場景中,還具備更多的特徵,例如:終端應用場景中,音頻檔的指紋要求具備易計算性,在計算資源受限的終端中能夠實現快速即時的指紋計算;再如:在無線網路應用場景中,音頻檔的指紋要求具備資料緊緻性,即要求資料量較小,以適應無線網路傳輸。
下面將結合圖1-圖4,對本發明實施例提供的音頻識別方法進行詳細介紹。
請參見圖1,為本發明實施例提供的一種音頻識別方法的流程圖;此方法可包括以下步驟S101-步驟S105。
S101,接收音頻識別請求時,採集待識別的第一 音頻檔。
其中,第一音頻檔可以包括:電影中的音頻片段、電視劇中的音頻片段、電視節目中的音頻片段、音樂電臺播放的音頻資料或人發出的音頻資料(例如:哼唱的音樂、歌曲片段)等。用戶若想要知道未知音頻檔的資訊,例如:音頻檔的歌曲名稱、演唱者、專輯名稱、歌詞等資訊,可發起音頻查詢請求。本步驟中,當接收到用戶發送的音頻識別請求時,採集待識別的第一音頻檔;本步驟的採集過程可以包含以下兩種實施方式:在第一種實施方式中,在接收到用戶發送的音頻查詢請求時,本步驟可啟動錄音功能,即時錄製用戶所請求識別的第一音頻檔。
在第二種實施方式中,在接收到用戶發送的音頻查詢請求時,本步驟可接收用戶上傳的請求識別的第一音頻檔。
上述兩種實施方式中,優選地,第一音頻檔為8KHz採樣頻率、16bit量化的PCM(Pulse-code modulation,脈衝編碼調製)格式的數位音頻檔。
S102,計算第一音頻檔的第一特徵資訊。
其中,第一音頻檔的第一特徵資訊可以為第一音頻檔的指紋,第一音頻檔的指紋指代表第一音頻檔的重要聲學特徵、且基於第一音頻檔的內容的緊緻數位簽名。本步驟中,對採集到的數位的第一音頻檔進行計算,獲得第一音頻檔的第一特徵資訊。
S103,從預置資料庫查找與第一特徵資訊相匹配的至少一個第二特徵資訊。
預置資料庫中存儲至少一個音頻檔的標識、至少一個音頻檔的特徵資訊、以及至少一個音頻檔的屬性資料。 本發明實施例中,預置資料庫中存儲的音頻檔可以包括:電影中的音頻片段、電視劇中的音頻片段、電視節目中的音頻片段、歌曲、音樂等。其中,音頻檔的標識可以用TrackID表示,例如:音頻檔1的標識可表示為TrackID-1,音頻檔2的標識可表示為TrackID-2;一個TrackID用於唯一標識一個音頻檔。其中,音頻檔的特徵資訊可以為音頻檔的指紋,例如:音頻檔1的特徵資訊可為音頻檔1的指紋,音頻檔2的特徵資訊可以為音頻檔2的指紋。其中,音頻檔的屬性資料可包括但不限於以下資料中的至少一種:音頻檔案名稱、音頻檔所屬的專輯資訊、音頻檔的連結位址、音頻檔的歌詞。本步驟中,第二特徵資訊與第一特徵資訊相匹配可以指第二特徵資訊與第一特徵資訊完全相同;或者,第二特徵資訊與第一特徵資訊的相似度達到預設相似度值,例如:預設相似度值為90%,若第二特徵資訊與第一特徵資訊的相似度達到90%或90%以上,則第二特徵資訊與第一特徵資訊相匹配。
S104,獲取至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料。
上述步驟S103從預置資料庫中查找到至少一個與第一特徵資訊相匹配的第二特徵資訊,其中,至少一個第二特徵資訊中的每個特徵資訊均對應一個第二音頻檔。通過上述步驟S103可識別到與第一音頻檔相匹配的至少一個第二音頻檔,由此可表明,第一音頻檔可能是識別到的至少一個第二音頻檔中的其中一個音頻檔,或者第一音頻檔可能是識別到的至少一個第二音頻檔的音頻片段;本步驟則獲取識別到的與第一音頻檔相匹配的至少一個第二音頻檔的屬性資料。
S105,將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。
本步驟可將步驟S104獲得的至少一個第二音頻檔中的所有音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出,也可從步驟S104獲得的至少一個音頻檔中選擇部分音頻檔,將選擇的音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。用戶根據識別結果,可獲知所請求查詢的第一音頻檔的屬性資料,例如:用戶可獲知第一音頻檔的歌曲名稱、演唱者、專輯名稱、歌詞等屬性資料。
本發明實施例中,在接收音頻識別請求時,自動採集待識別的第一音頻檔,無需用戶人工輸入待識別的第一音頻檔的基本資訊,從而提升了音頻識別的智慧性。另外,計算第一音頻檔的第一特徵資訊,基於第一特徵資訊從預置資料庫查找相匹配的第二音頻檔的屬性資料,並將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出;本發明實施例基於特徵資訊進行音頻識別,當音頻檔確定時,音頻檔的特徵資訊也是確定的,基於確定的特徵資訊進行音頻識別,提升了音頻識別的準確性,同時提升了音頻識別的智慧性。
下面將對圖1所示的音頻識別方法的各步驟進行詳細介紹。
請參見圖2,為圖1所示的步驟S102的實施例的流程圖;該步驟S102可包括以下步驟s1201-步驟s1204。
s1201,對第一音頻檔進行時頻分析,生成第一預設數量的相位通道。
其中,第一預設數量的值可根據實際情況進行設定,具體設定過程可考慮第一音頻檔的影響因素,例如:第一預設數量的值可根據第一音頻檔的訊噪比因素進行設定,等等。本發明實施例中,第一預設數量可採用M進行表示,其中M為正整數。本步驟對採集到的數位的第一音頻檔的時 域信號進行基於STFT(Short-Time Fourier Transform,短時傅立葉變換)變換的時頻分析,可以獲得第一音頻檔的二維時頻圖;將第一音頻檔的二維時頻圖拆分成M個時頻子圖,則相應生成第一音頻檔的M個相位通道,一個相位通道對應一個時頻子圖,例如:M個相位通道中和M個時頻子圖中,相位通道1對應時頻子圖1,相位通道2對應時頻子圖2,以此類推,相位通道M對應時頻子圖M。
s1202,提取第一預設數量的相位通道中的每個相位通道的至少一個峰值特徵點,每個相位通道的至少一個峰值特徵點構成每個相位通道的峰值特徵點序列。
如前述,M個相位通道中,一個相位通道對應一個時頻子圖。本步驟中,對每個相位通道的峰值特徵點的提取過程可以包括:1)在每個相位通道對應的時頻子圖中,分析每個特徵點的能量值;2)根據每個特徵點的能量值,選取一定矩形鄰域內能量值極大的特徵點作為峰值特徵點。根據上述1)和2),可提取每個相位通道的至少一個峰值特徵點。其中,矩形鄰域的尺寸參數可根據實際需要進行設定,設定過程需要考慮以下因素,包括時頻子圖中的特徵點的數量,以及時頻子圖中的特徵點的分佈情況,等等。M個相位通道中,每個相位通道可提取至少一個峰值特徵點,對該至少一個峰值特徵點進行排序可構成每個相位通道的峰值特徵點序列,具體地,可先按照時間從先至後的順序,對至少一個峰值特徵點進行排序,針對相同時間點出現的峰值特徵點,再按照頻率從高至低的順序對至少一個峰值特徵點進行排序。本步驟可提取M個峰值特徵點序列,例如:M個相位通道中,相位通道1對應峰值特徵點序列1,相位通道2對應峰值特徵點序列2,以此類推,相位通道M對應峰值特徵點序列M。
s1203,對每個相位通道的峰值特徵點序列中的 每個峰值特徵點進行配對處理,形成每個相位通道的峰值特徵點對序列。
本實施例定義S n (t k ,f k )表示任一個相位通道的峰值特徵點序列中的任一個峰值特徵點,其中n表示相位通道的序號或時頻子圖的序號,且0<n M ;k表示峰值特徵點在峰值特徵點序列n中的序號,k為正整數;t k 表示時頻子圖n中出現峰值特徵點的時間;f k 表示峰值特徵點的頻率。
本步驟對每個相位通道的峰值特徵點序列中的每個峰值特徵點進行配對處理的過程可以包括:(1)在每個相位通道對應的時頻子圖中,以每個相位通道的峰值特徵點序列中的每個峰值特徵點作為錨點,選取一個矩形目標區域;針對任一個時頻子圖中的任一個峰值特徵點S n (t k ,f k ),矩形目標區域滿足以下條件:
其中,t start 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的起始時間,t end 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的結束時間;f start 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的最小頻率,f end 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的最大頻率。
(2)在矩形目標區域內選取除錨點之外的一個峰值特徵點與錨點配對,錨點及與錨點配對的峰值特徵點構成峰值特徵點對。與錨點配對的峰值特徵點的選取原則可以包括:選取出現時間與錨點的出現時間的時間差最小的峰值特徵點;或者,選取除錨點之外的能量值最大的峰值特徵點。
通過上述(1)和(2),針對任一個峰值特徵點S n (t k ,f k )均可獲得一個配對的峰值特徵點S n (t b ,f b )。其中n表示相位通道的序號或時頻子圖的序號,且0<n M ;b表示配對的峰值特徵點在峰值特徵點序列n中的序號,b為正整數;t b 表示 時頻子圖n中出現配對的峰值特徵點的時間;f b 表示配對的峰值特徵點的頻率。本實施例定義四元組(t k ,f k ,△f k ,△t k ) n 來表示任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對,其中,n表示相位通道的序號或時頻子圖的序號;△t k 表示峰值特徵點對中的兩個峰值特徵點之間的時間差,△t k =t b -t k ;△f k 表示峰值特徵點對中的兩個峰值特徵點之間的頻率差,△f k =f b -f k
本步驟可對M個峰值特徵點序列中的每個峰值特徵點進行配對,則可形成M個峰值特徵點對序列,例如:M個相位通道中,相位通道1對應峰值特徵點對序列1,相位通道2對應峰值特徵點序列對2,以此類推,相位通道M對應峰值特徵點對序列M。
s1204,對每個相位通道的峰值特徵點對序列進行哈希計算,獲得每個相位通道對應的指紋序列,第一預設數量的相位通道對應的指紋序列的集合構成第一音頻檔的第一特徵資訊。
如前述,四元組(t k ,f k ,△f k ,△t k ) n 來表示任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對。四元組中的參數可作如下理解:(f k ,△f k ,△t k )代表峰值特徵點對的特徵部分,t k 代表出現(f k ,△f k ,△t k )的時間。本步驟可對(f k ,△f k ,△t k )進行哈希計算,將(f k ,△f k ,△t k )採用固定比特位元數的哈希編碼進行表示,具體如下:hashcode k =H (f k ,△f k ,△t k )。經過本步驟的計算,任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對可表示為(t k ,hashcode k ) n ,n表示相位通道的序號或時頻子圖的序號,t k 代表出現hashcode k 的時間;該(t k ,hashcode k ) n 為一個指紋項,可表示一對峰值特徵點對。
經過本步驟,M個峰值特徵點對序列中,每個峰值特徵點對序列中的每一對峰值特徵點對均可採用一個指紋 項進行表示,則每個峰值特徵點對序列均對應一個指紋序列,M個峰值特徵點對序列對應M個指紋序列,例如:峰值特徵點對序列1對應指紋序列1,峰值特徵點序列對2對應指紋序列2,以此類推,峰值特徵點對序列M對應指紋序列M。M個指紋序列的集合構成第一音頻檔的第一特徵資訊,即第一音頻檔的第一特徵資訊可表示為M個指紋序列的集合。
請參見圖3,為圖2所示的步驟s1201的實施例的流程圖;步驟s1201可包括以下步驟s1211-步驟s1215。
s1211,對第一音頻檔進行時域分幀處理,形成多個音頻幀信號。
本步驟可以窗函數作為分幀的參數,對採集到的第一音頻檔進行時域分幀處理,形成多個音頻幀信號。其中,窗函數可以為海明窗函數、漢寧窗函數、高斯窗函數等常見的窗函數。
s1212,對每一個音頻幀信號進行STFT變換,獲得每一個音頻幀信號的頻率譜。
s1213,提取每一個音頻幀信號的頻率譜對應的幅度譜。
s1214,根據每一個音頻幀信號的時間、頻率譜和幅度譜,繪製第一音頻檔的時頻圖。本步驟中,可以按照每一個音頻幀信號的時間順序,依次繪製每一個音頻幀信號的頻率譜和幅度譜,形成第一音頻檔的二維時頻圖。
s1215,按照時間取模的方式,對第一音頻檔的時頻圖進行拆分,生成第一預設數量的時頻子圖,第一預設數量的時頻子圖中的一個時頻子圖對應第一音頻檔的一個相位通道。
其中,第一預設數量可採用M進行表示,其中M為正整數。本步驟對第一音頻檔的時頻圖按照時間t對M取 模的方式進行拆分,生成M個時頻子圖,具體的拆分過程為:在二維時頻圖中分別選取t =0、M 、2MxM 每個時間對應的特徵點,將選取的特徵點組成時頻子圖1;在二維時頻圖中分別選取t =1、1+M 、1+2M …1+xM 每個時間對應的特徵點,將選取的特徵點組成時頻子圖2;以此類推,在二維時頻圖中分別選取t =M -1、(M -1)+M …(M -1)+xM 每個時間對應的特徵點,將選取的特徵點組成時頻子圖M。其中,x 為正整數,且0<(M -1)+xM t max ,其中t max 為二維時頻圖中的最大時間點。本發明實施例中,一個時頻子圖對應第一音頻檔的一個相位通道,M個時頻子圖對應M個相位通道,例如:時頻子圖1對應相位通道1,時頻子圖2對應相位通道2,以此類推,時頻子圖M對應相位通道M。
請參見圖4,為圖1所示的步驟S103的實施例的流程圖;步驟S103可包括以下步驟s1301-s1305。
s1301,將第一特徵資訊與預置資料庫中的每個特徵資訊進行比對。
預置資料庫中存儲至少一個音頻檔的標識、至少一個音頻檔的特徵資訊、以及至少一個音頻檔的屬性資料。其中,音頻檔的屬性資料可包括以下資料中的至少一種:音頻檔案名稱、音頻檔所屬的專輯資訊、音頻檔的鏈結位址、音頻檔的歌詞。其中,音頻檔的標識可以用TrackID表示,例如:音頻檔1的標識可表示為TrackID-1,音頻檔2的標識可表示為TrackID-2;一個TrackID用於唯一標識一個音頻檔。其中,音頻檔的特徵資訊可以為音頻檔的指紋,例如:音頻檔1的特徵資訊可為音頻檔1的指紋,音頻檔2的特徵資訊可以為音頻檔2的指紋;參照圖3所示實施例中指紋的表述方式,預置資料庫中存儲的音頻檔的特徵資訊為指紋序列的集合。則任一個TrackID-d所標識的音頻檔的一個指紋項 可表示為(TimeOffest i ,hashcode i ) p ,其中,p 為指紋序列的集合中的指紋序列的序號;i 為指紋序列中指紋項的序號;TimeOffest i 為指紋項出現hashcode i 的時間偏移值。為了提升對預置資料庫的查詢效率,本發明實施例中,可以哈希表的結構來反向存儲預置資料庫的內容,哈希表結構可如下表一所示:
上述表一中,Key值為指紋項中hashcode的值,Value值為音頻檔的標識TrackID和出現hashcode值的時間偏移值TimeOffest。
本步驟將第一特徵資訊與預置資料庫中的每個特徵資訊進行比對,實際是將第一特徵資訊中的每個指紋項中的hashcode值與上述表一所示哈希表中的Key值進行比對。
s1302,根據比對結果對預置資料庫中的每個特徵資訊所對應的音頻檔的標識進行加權處理。
上述步驟s1301將第一特徵資訊中的每個指紋項中的hashcode值與上述表一所示哈希表中的Key值進行比對,例如:假設第一特徵資訊中的某個指紋項中的hashcode值為0x0002,經s1302比對後,可從上述表一所示的哈希表中找到Key值同樣為0x0002的行,本步驟中則對比對查找到的Key值為0x0002行中的所有TrackID進行加權處理。具體實現中,本步驟可採用TF(Term Frequency,詞頻)-IDF(Inverse Document Frequency,逆文檔頻率)的加權方式,對TrackID進行加權處理。經過本步驟之後,預置資料庫中的每個TrackID都會對應一個權重分數,該權重分數最低值為0。
s1303,按照權重由高至低的順序,從預置資料庫中選擇第二預設數量的音頻檔的特徵資訊組成候選列表。按照TrackID的權重分數由高至低的順序,挑選權重分數位於前R個TrackID所標識的音頻檔,將R個音頻檔的特徵資訊組成候選列表;其中,R為正整數。
s1304,計算候選列表中的每個音頻檔的特徵資訊與第一特徵資訊的時間相關性。
第一特徵資訊為M個指紋序列的集合,且M個指紋序列的集合中的任一個指紋項可表示為(t k ,hashcode k ) n 。候選列表中包含R個特徵資訊,R個特徵資訊中的每個特徵資訊均為指紋序列的集合,例如:候選列表中的特徵資訊A為p個指紋序列構成的集合A,集合A中的任一個指紋項可表示為(TimeOffest i ,hashcode i ) p 。本步驟中,時間相關性的計算過程可包括:(1)採用公式△t '=t k -TimeOffest i ,依次計算候選列表中的每個特徵資訊包含的指紋項與第一特徵資訊包含的指紋項的時間差。(2)針對候選列表中的任一個特徵資訊,統計相同時間差的數量,例如:針對候選列表中的特徵資訊A,根據(1)的計算結果統計得到20個△t '=20,40個△t '=30,50個△t '=35。 (3)針對候選列表中的任一個特徵資訊,選取(2)中統計得到的最大數量表示候選列表中的特徵資訊與第一特徵資訊的時間相關性;依上述例子,候選列表中的特徵資訊A與第一特徵資訊的時間相關性的度量值L=50。
根據上述(1)-(3),可計算得到候選列表中的R個特徵資訊中的每個特徵資訊與第一特徵資訊的時間相關性的度量值。
s1305,從候選列表中選取與第一特徵資訊相匹配的至少一個第二特徵資訊,其中,第二特徵資訊與第一特徵資訊的時間相關性大於預設閾值。
按照時間相關性的值由高至低的順序,對候選列表進行排序,再從排序後的候選列表中選取至少一個與第一特徵資訊相匹配的第二特徵資訊,第二特徵資訊與第一特徵資訊的時間相關性大於預設閾值。其中,預設閾值可根據實際情況進行設定。需要說明的是,如果排序後的候選列表中的所有特徵資訊與第一特徵資訊的時間相關性均不大於預設閾值,則認為預置資料庫中沒有與第一特徵資訊相匹配的特徵資訊,則表示無法識別第一音頻檔。
本發明實施例中,在接收音頻識別請求時,自動採集待識別的第一音頻檔,無需用戶人工輸入待識別的第一音頻檔的基本資訊,從而提升了音頻識別的智慧性。另外,計算第一音頻檔的第一特徵資訊,基於第一特徵資訊從預置資料庫查找相匹配的第二音頻檔的屬性資料,並將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出;本發明實施例基於特徵資訊進行音頻識別,當音頻檔確定時,音頻檔的特徵資訊也是確定的,基於確定的特徵資訊進行音頻識別,提升了音頻識別的準確性,同時提升了音頻識別的智慧性。
本發明實施例提供一種音頻識別裝置,用以執行上述圖1-圖4所示實施例的音頻識別方法的流程。音頻識別裝置可以存在以下兩種可行的實施方式:在第一種可行的實施方式中,音頻識別裝置可以為獨立的集成裝置,通過獨立的集成裝置可以執行圖1-圖4所示實施例的全部流程,以實現音頻識別過程。本實施方式中,音頻識別裝置可以為終端或伺服器。
在第二種可行的實施方式中,音頻識別裝置可以由第一分佈裝置和第二分佈裝置共同構成,第一分佈裝置和第二分佈裝置協同執行圖1-圖4所示實施例的全部流程,以實現音頻識別過程。本實施方式中,第一分佈裝置可以為終端,第二分佈裝置可以為伺服器。可以理解的是,當音頻識別裝置包含第一分佈裝置和第二分佈裝置時,第一分佈裝置和第二分佈裝置在協同過程中可採用一些技術處理手段,例如:對資料進行壓縮處理等等,以減小協同過程中傳輸的資料量,提升協同操作的效率和速率。
下面將結合附圖5-附圖8,對本發明實施例提供的音頻識別裝置進行詳細介紹。下述的音頻識別裝置可以應用於上述的音頻識別方法中。
請參見圖5,為本發明實施例提供的一種音頻識別裝置的結構示意圖;裝置可包括:採集模組101、計算模組102、識別模組103、獲取模組104和結果輸出模組105。
採集模組101,用於在接收音頻識別請求時,採集待識別的第一音頻檔。
其中,第一音頻檔可以包括:電影中的音頻片段、電視劇中的音頻片段、電視節目中的音頻片段、音樂電臺播放的音頻資料或人發出的音頻資料(例如:哼唱的音樂、歌曲片段)等。用戶若想要知道未知音頻檔的資訊,例如: 音頻檔的歌曲名稱、演唱者、專輯名稱、歌詞等資訊,可發起音頻查詢請求。當接收到用戶發送的音頻識別請求時,採集模組101採集待識別的第一音頻檔;採集模組101的採集過程可以包含以下兩種實施方式:在第一種實施方式中,在接收到用戶發送的音頻查詢請求時,採集模組101可啟動錄音功能,即時錄製用戶所請求識別的第一音頻檔。
在第二種實施方式中,在接收到用戶發送的音頻查詢請求時,採集模組101可接收用戶上傳的請求識別的第一音頻文件。
上述兩種實施方式中,優選地,第一音頻檔為8KHz採樣頻率、16bit量化的PCM格式的數位音頻檔。
計算模組102,用於計算第一音頻檔的第一特徵資訊。
其中,第一音頻檔的第一特徵資訊可以為第一音頻檔的指紋,第一音頻檔的指紋指代表第一音頻檔的重要聲學特徵、且基於第一音頻檔的內容的緊緻數位簽名。計算模組102對採集到的數字的第一音頻檔進行計算,獲得第一音頻檔的第一特徵資訊。
查詢模組103,用於從預置資料庫查找與第一特徵資訊相匹配的至少一個第二特徵資訊。
預置資料庫中存儲至少一個音頻檔的標識、至少一個音頻檔的特徵資訊、以及至少一個音頻檔的屬性資料。本發明實施例中,預置資料庫中存儲的音頻檔可以包括:電影中的音頻片段、電視劇中的音頻片段、電視節目中的音頻片段、歌曲、音樂等。其中,音頻檔的標識可以用TrackID表示;音頻檔的特徵資訊可以為音頻檔的指紋;音頻檔的屬性資料可包括但不限於以下資料中的至少一種:音頻檔案名 稱、音頻檔所屬的專輯資訊、音頻檔的鏈結位址、音頻檔的歌詞。查詢模組103查找到的第二特徵資訊與第一特徵資訊相匹配可以指第二特徵資訊與第一特徵資訊完全相同;或者,第二特徵資訊與第一特徵資訊的相似度達到預設相似度值,例如:預設相似度值為90%,若第二特徵資訊與第一特徵資訊的相似度達到90%或90%以上,則第二特徵資訊與第一特徵資訊相匹配。
獲取模組104,用於獲取至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料。
從預置資料庫中查找到至少一個與第一特徵資訊相匹配的第二特徵資訊,其中,至少一個第二特徵資訊中的每個特徵資訊均對應一個第二音頻檔。表明識別到與第一音頻檔相匹配的至少一個第二音頻檔,由此可表明,該第一音頻檔可能是識別到的至少一個第二音頻檔中的其中一個音頻檔,或者該第一音頻檔可能是識別到的至少一個第二音頻檔的音頻片段;獲取模組104獲取識別到的與第一音頻檔相匹配的至少一個第二音頻檔的屬性資料。
結果輸出模組105,用於將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。
結果輸出模組105可將獲得的至少一個第二音頻檔中的所有音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出,也可將獲得的至少一個音頻檔中選擇部分音頻檔,將選擇的音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出。用戶根據識別結果,可獲知所請求查詢的第一音頻檔的屬性資料,例如:用戶可獲知第一音頻檔的歌曲名稱、演唱者、專輯名稱、歌詞等屬性資料。
本發明實施例中,在接收音頻識別請求時,自動採集待識別的第一音頻檔,無需用戶人工輸入待識別的第一 音頻檔的基本資訊,從而提升了音頻識別的智慧性。另外,計算第一音頻檔的第一特徵資訊,基於第一特徵資訊從預置資料庫查找相匹配的第二音頻檔的屬性資料,並將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出;本發明實施例基於特徵資訊進行音頻識別,當音頻檔確定時,音頻檔的特徵資訊也是確定的,基於確定的特徵資訊進行音頻識別,提升了音頻識別的準確性,同時提升了音頻識別的智慧性。
下面將對圖5所示的音頻識別裝置的各模組進行詳細介紹。
請參見圖6,為圖5所示的計算模組的實施例的結構示意圖;計算模組102可包括:時頻分析單元1201、特徵提取單元1202、配對處理單元1203和計算單元1204。
時頻分析單元1201,用於對第一音頻檔進行時頻分析,生成第一預設數量的相位通道。
其中,第一預設數量的值可根據實際情況進行設定,具體設定過程可考慮第一音頻檔的影響因素,例如:第一預設數量的值可根據第一音頻檔的訊噪比因素進行設定,等等。本發明實施例中,第一預設數量可採用M進行表示,其中M為正整數。時頻分析單元1201對採集到的數位的第一音頻檔的時域信號進行基於STFT變換的時頻分析,可以獲得第一音頻檔的二維時頻圖;將第一音頻檔的二維時頻圖拆分成M個時頻子圖,則相應生成第一音頻檔的M個相位通道,一個相位通道對應一個時頻子圖,例如:M個相位通道中和M個時頻子圖中,相位通道1對應時頻子圖1,相位通道2對應時頻子圖2,以此類推,相位通道M對應時頻子圖M。
特徵提取單元1202,用於提取第一預設數量的相位通道中的每個相位通道的至少一個峰值特徵點,每個相位 通道的至少一個峰值特徵點構成每個相位通道的峰值特徵點序列。
如前述,M個相位通道中,一個相位通道對應一個時頻子圖。特徵提取單元1202對每個相位通道的峰值特徵點的提取過程可以包括:1)在每個相位通道對應的時頻子圖中,分析每個特徵點的能量值;2)根據每個特徵點的能量值,選取一定矩形鄰域內能量值極大的特徵點作為峰值特徵點。根據上述1)和2),可提取每個相位通道的至少一個峰值特徵點。其中,矩形鄰域的尺寸參數可根據實際需要進行設定,設定過程需要考慮以下因素,包括時頻子圖中的特徵點的數量,以及時頻子圖中的特徵點的分佈情況,等等。M個相位通道中,每個相位通道可提取至少一個峰值特徵點,對至少一個峰值特徵點進行排序可構成每個相位通道的峰值特徵點序列,具體地,可先按照時間從先至後的順序,對至少一個峰值特徵點進行排序,針對相同時間點出現的峰值特徵點,再按照頻率從高至低的順序對至少一個峰值特徵點進行排序。特徵提取單元1202可提取M個峰值特徵點序列,例如:M個相位通道中,相位通道1對應峰值特徵點序列1,相位通道2對應峰值特徵點序列2,以此類推,相位通道M對應峰值特徵點序列M。
配對處理單元1203,用於對每個相位通道的峰值特徵點序列中的每個峰值特徵點進行配對處理,形成每個相位通道的峰值特徵點對序列。
本實施例定義S n (t k ,f k )表示任一個相位通道的峰值特徵點序列中的任一個峰值特徵點,其中n表示相位通道的序號或時頻子圖的序號,且0<n M ;k表示該峰值特徵點在峰值特徵點序列n中的序號,k為正整數;t k 表示時頻子圖n中出現該峰值特徵點的時間;f k 表示該峰值特徵點的頻率。
配對處理單元1203對每個相位通道的峰值特徵點序列中的每個峰值特徵點進行配對處理的過程可以包括:
(1)在每個相位通道對應的時頻子圖中,以每個相位通道的峰值特徵點序列中的每個峰值特徵點作為錨點,選取一個矩形目標區域;針對任一個時頻子圖中的任一個峰值特徵點S n (t k ,f k ),矩形目標區域滿足以下條件:
其中,t start 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的起始時間,t end 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的結束時間;f start 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的最小頻率,f end 表示以峰值特徵點S n (t k ,f k )作為錨點選取的矩形目標區域的最大頻率。
(2)在矩形目標區域內選取除錨點之外的一個峰值特徵點與錨點配對,錨點及與該錨點配對的峰值特徵點構成峰值特徵點對。與錨點配對的峰值特徵點的選取原則可以包括:選取出現時間與錨點的出現時間的時間差最小的峰值特徵點;或者,選取除錨點之外的能量值最大的峰值特徵點。
通過上述(1)和(2),針對任一個峰值特徵點S n (t k ,f k )均可獲得一個配對的峰值特徵點S n (t b ,f b )。其中n表示相位通道的序號或時頻子圖的序號,且0<n M ;b表示該配對的峰值特徵點在峰值特徵點序列n中的序號,b為正整數;t b 表示時頻子圖n中出現該配對的峰值特徵點的時間;f b 表示配對的峰值特徵點的頻率。本實施例定義四元組(t k ,f k ,△f k ,△t k ) n 來表示任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對,其中,n表示相位通道的序號或時頻子圖的序號;△t k 表示峰值特徵點對中的兩個峰值特徵點之間的時間差,△t k =t b -t k ;△f k 表示峰值特徵點對中的兩個峰值特徵點之間的頻 率差,△f k =f b -f k
配對處理單元1203可對M個峰值特徵點序列中的每個峰值特徵點進行配對,則可形成M個峰值特徵點對序列,例如:M個相位通道中,相位通道1對應峰值特徵點對序列1,相位通道2對應峰值特徵點序列對2,以此類推,相位通道M對應峰值特徵點對序列M。
計算單元1204,用於對每個相位通道的峰值特徵點對序列進行哈希計算,獲得每個相位通道對應的指紋序列,第一預設數量的相位通道對應的指紋序列的集合構成第一音頻檔的第一特徵資訊。
如前述,四元組(t k ,f k ,△f k ,△t k ) n 來表示任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對。該四元組中的參數可作如下理解:(f k ,△f k ,△t k )代表峰值特徵點對的特徵部分,t k 代表出現(f k ,△f k ,△t k )的時間。計算單元1204可對(f k ,△f k ,△t k )進行哈希計算,將(f k ,△f k ,△t k )採用固定比特位元數的哈希編碼進行表示,具體如下:hashcode k =H (f k ,△f k ,△t k )。經過計算單元1204的計算,任一個相位通道的峰值特徵點對序列中的任一對峰值特徵點對可表示為(t k ,hashcode k ) n ,n表示相位通道的序號或時頻子圖的序號,t k 代表出現hashcode k 的時間;該(t k ,hashcode k ) n 為一個指紋項,可表示一對峰值特徵點對。
經過計算單元1204的計算,M個峰值特徵點對序列中,每個峰值特徵點對序列中的每一對峰值特徵點對均可採用一個指紋項進行表示,則每個峰值特徵點對序列均對應一個指紋序列,M個峰值特徵點對序列對應M個指紋序列,例如:峰值特徵點對序列1對應指紋序列1,峰值特徵點序列對2對應指紋序列2,以此類推,峰值特徵點對序列M對應指紋序列M。M個指紋序列的集合構成第一音頻檔的第一特徵資訊,即第一音頻檔的第一特徵資訊可表示為M個指 紋序列的集合。
請參見圖7,為圖6所示的時頻分析單元的實施例的結構示意圖;時頻分析單元1201可包括:分幀處理子單元1211、變換子單元1212、幅度提取子單元1213、繪製子單元1214和拆分子單元1215。
分幀處理子單元1211,用於對第一音頻檔進行時域分幀處理,形成多個音頻幀信號。
分幀處理子單元1211可以窗函數作為分幀的參數,對採集到的第一音頻檔進行時域分幀處理,形成多個音頻幀信號。其中,窗函數可以為海明窗函數、漢寧窗函數、高斯窗函數等常見的窗函數。
變換子單元1212,用於對每一個音頻幀信號進行STFT變換,獲得每一個音頻幀信號的頻率譜。
幅度提取子單元1213,用於提取每一個音頻幀信號的頻率譜對應的幅度譜。
繪製子單元1214,用於根據每一個音頻幀信號的時間、頻率譜和幅度譜,繪製第一音頻檔的時頻圖。繪製子單元1214可以按照每一個音頻幀信號的時間順序,依次繪製每一個音頻幀信號的頻率譜和幅度譜,形成第一音頻檔的二維時頻圖。
拆分子單元1215,用於按照時間取模的方式,對第一音頻檔的時頻圖進行拆分,生成第一預設數量的時頻子圖,第一預設數量的時頻子圖中的一個時頻子圖對應第一音頻檔的一個相位通道。
其中,第一預設數量可採用M進行表示,其中M為正整數。拆分子單元1215對第一音頻檔的時頻圖按照時間t對M取模的方式進行拆分,生成M個時頻子圖,具體的拆分過程為:在二維時頻圖中分別選取t =0、M 、2MxM 每個時間對 應的特徵點,將選取的特徵點組成時頻子圖1;在二維時頻圖中分別選取t =1、1+M 、1+2M …1+xM 每個時間對應的特徵點,將選取的特徵點組成時頻子圖2;以此類推,在二維時頻圖中分別選取t =M -1、(M -1)+M …(M -1)+xM 每個時間對應的特徵點,將選取的特徵點組成時頻子圖M。其中,x 為正整數,且0<(M -1)+xM t max ,其中t max 為二維時頻圖中的最大時間點。本發明實施例中,一個時頻子圖對應第一音頻檔的一個相位通道,M個時頻子圖對應M個相位通道,例如:時頻子圖1對應相位通道1,時頻子圖2對應相位通道2,以此類推,時頻子圖M對應相位通道M。
請參見圖8,為圖5所示的識別模組的實施例的結構示意圖;識別模組103可包括:特徵比對單元1301、加權處理單元1302、候選列表生成單元1303、相關性計算單元1304和匹配單元1305。
特徵比對單元1301,用於將第一特徵資訊與預置資料庫中的每個特徵資訊進行比對。
預置資料庫中存儲至少一個音頻檔的標識、至少一個音頻檔的特徵資訊、以及至少一個音頻檔的屬性資料。其中,音頻檔的屬性資料可包括以下資料中的至少一種:音頻檔案名稱、音頻檔所屬的專輯資訊、音頻檔的鏈結位址、音頻檔的歌詞。其中,音頻檔的標識可以用TrackID表示,例如:音頻檔1的標識可表示為TrackID-1,音頻檔2的標識可表示為TrackID-2;一個TrackID用於唯一標識一個音頻檔。其中,音頻檔的特徵資訊可以為音頻檔的指紋,例如:音頻檔1的特徵資訊可為音頻檔1的指紋,音頻檔2的特徵資訊可以為音頻檔2的指紋;參照圖3所示實施例中指紋的表述方式,預置資料庫中存儲的音頻檔的特徵資訊為指紋序列的集合。則任一個TrackID-d所標識的音頻檔的一個指紋項 可表示為(TimeOffest i ,hashcode i ) p ,其中,p 為指紋序列的集合中的指紋序列的序號;i 為指紋序列中指紋項的序號;TimeOffest i 為該指紋項出現hashcode i 的時間偏移值。為了提升對預置資料庫的查詢效率,本發明實施例中,可以哈希表的結構來反向存儲預置資料庫的內容,哈希表結構可上述表一所示。
特徵比對單元1301將第一特徵資訊與預置資料庫中的每個特徵資訊進行比對,實際是將第一特徵資訊中的每個指紋項中的hashcode值與上述表一所示哈希表中的Key值進行比對。
加權處理單元1302,用於根據比對結果對預置資料庫中的每個特徵資訊所對應的音頻檔的標識進行加權處理。
將第一特徵資訊中的每個指紋項中的hashcode值與上述表一所示哈希表中的Key值進行比對,例如:假設第一特徵資訊中的某個指紋項中的hashcode值為0x0002,經s1302比對後,可從上述表一所示的哈希表中找到Key值同樣為0x0002的行,加權處理單元1302則對比對查找到的Key值為0x0002行中的所有TrackID進行加權處理。具體實現中,加權處理單元1302可採用TF-IDF的加權方式,對TrackID進行加權處理。經過加權處理單元1302加權處理之後,預置資料庫中的每個TrackID都會對應一個權重分數,該權重分數最低值為0。
候選列表生成單元1303,用於按照權重由高至低的順序,從預置資料庫中選擇第二預設數量的音頻檔的特徵資訊組成候選列表。按照TrackID的權重分數由高至低的順序,挑選權重分數位於前R個TrackID所標識的音頻檔,將該R個音頻檔的特徵資訊組成候選列表;其中,R為正整數。
相關性計算單元1304,用於計算候選列表中的每 個音頻檔的特徵資訊與第一特徵資訊的時間相關性。
第一特徵資訊為M個指紋序列的集合,且M個指紋序列的集合中的任一個指紋項可表示為(t k ,hashcode k ) n 。候選列表中包含R個特徵資訊,R個特徵資訊中的每個特徵資訊均為指紋序列的集合,例如:候選列表中的特徵資訊A為p個指紋序列構成的集合A,集合A中的任一個指紋項可表示為(TimeOffest i ,hashcode i ) p 。相關性計算單元1304計算過程可包括:(1)採用公式△t '=t k -TimeOffest i ,依次計算候選列表中的每個特徵資訊包含的指紋項與第一特徵資訊包含的指紋項的時間差。(2)針對候選列表中的任一個特徵資訊,統計相同時間差的數量,例如:針對候選列表中的特徵資訊A,根據(1)的計算結果統計得到20個△t '=20,40個△t '=30,50個△t '=35。(3)針對候選列表中的任一個特徵資訊,選取(2)中統計得到的最大數量表示候選列表中的特徵資訊與第一特徵資訊的時間相關性;依上述例子,候選列表中的特徵資訊A與第一特徵資訊的時間相關性的度量值L=50。
根據上述(1)-(3),可計算得到候選列表中的R個特徵資訊中的每個特徵資訊與第一特徵資訊的時間相關性的度量值。
匹配單元1305,用於從候選列表中選取與第一特徵資訊相匹配的至少一個第二特徵資訊,其中,第二特徵資訊與第一特徵資訊的時間相關性大於預設閾值。
按照時間相關性的值由高至低的順序,對候選列表進行排序,再從排序後的候選列表中選取至少一個與第一特徵資訊相匹配的第二特徵資訊,第二特徵資訊與第一特徵資訊的時間相關性大於預設閾值。其中,預設閾值可根據實際情況進行設定。需要說明的是,如果排序後的候選列表中的所有特徵資訊與第一特徵資訊的時間相關性均不大於預設 閾值,匹配單元1305則認為預置資料庫中沒有與第一特徵資訊相匹配的特徵資訊,則表示無法識別第一音頻檔。
圖5-圖8所示實施例中,在音頻識別裝置的第一種可行的實施方式中,採集模組101、計算模組102、識別模組103、獲取模組104和結果輸出模組105可以集成於同一裝置中構成音頻識別裝置。
在音頻識別裝置的第二種可行的實施方式中,採集模組101可以位於第一分佈裝置中,計算模組102、識別模組103、獲取模組104和結果輸出模組105可以位於第二分佈裝置中,第一分佈裝置與第二分佈於共同構成音頻識別裝置;或者,採集模組101、計算模組102可以位於第一分佈裝置中,識別模組103、獲取模組104和結果輸出模組105可以位於第二分佈裝置中,第一分佈裝置與第二分佈於共同構成音頻識別裝置;或者,採集模組101及計算模組102中的時頻分析單元1201和特徵提取單元1202可以位於第一分佈裝置中,計算模組102中的配對處理單元1203和計算單元1204,以及識別模組103、獲取模組104和結果輸出模組105可以位於第二分佈裝置中,第一分佈裝置與第二分佈於共同構成音頻識別裝置。
本發明實施例中,在接收音頻識別請求時,自動採集待識別的第一音頻檔,無需用戶人工輸入待識別的第一音頻檔的基本資訊,從而提升了音頻識別的智慧性。另外,計算第一音頻檔的第一特徵資訊,基於第一特徵資訊從預置資料庫查找相匹配的第二音頻檔的屬性資料,並將第二音頻檔的屬性資料作為第一音頻檔的識別結果進行輸出;本發明實施例基於特徵資訊進行音頻識別,當音頻檔確定時,音頻檔的特徵資訊也是確定的,基於確定的特徵資訊進行音頻識別,提升了音頻識別的準確性,同時提升了音頻識別的智慧 性。
本領域普通技術人員可以理解實現上述實施例方法中的全部或部分流程,是可以通過電腦程式來指令相關的硬體來完成,程式可存儲於一電腦可讀取存儲介質中,程式在執行時,可包括如上述各方法的實施例的流程。其中,存儲介質可為磁碟、光碟、唯讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
以上所揭露的僅為本發明較佳實施例而已,當然不能以此來限定本發明之權利範圍,因此依本發明權利要求所作的等同變化,仍屬本發明所涵蓋的範圍。
S101~S105‧‧‧步驟

Claims (8)

  1. 一種音頻識別方法,包括下列步驟:接收音頻識別請求時,採集待識別的第一音頻檔;對該第一音頻檔進行時頻分析,生成第一預設數量的相位通道;提取該第一預設數量的相位通道中的每個相位通道的至少一個峰值特徵點,每個相位通道的該至少一個峰值特徵點構成每個相位通道的峰值特徵點序列;對每個相位通道的該峰值特徵點序列中的每個峰值特徵點進行配對處理,形成每個相位通道的峰值特徵點對序列;對每個相位通道的該峰值特徵點對序列進行哈希計算,獲得每個相位通道對應的指紋序列,該第一預設數量的相位通道對應的該指紋序列的集合構成該第一音頻檔的第一特徵資訊;從預置資料庫查找與該第一特徵資訊相匹配的至少一個第二特徵資訊,並獲取該至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料;以及將該第二音頻檔的屬性資料作為該第一音頻檔的識別結果進行輸出。
  2. 如申請專利範圍第1項所述之音頻識別方法,其中對該第一音頻檔進行時頻分析,生成該第一預設數量的相位通道,包括:對該第一音頻檔進行時域分幀處理,形成多個音頻幀信號;對每一個音頻幀信號進行短時傅立葉變換,獲得每一個音頻幀信號的頻率譜,並提取每一個音頻幀信號的該頻率譜 對應的幅度譜;根據每一個音頻幀信號的時間、該頻率譜和該幅度譜,繪製該第一音頻檔的時頻圖;按照時間取模的方式,對該第一音頻檔的時頻圖進行拆分,生成第一預設數量的時頻子圖,該第一預設數量的時頻子圖中的一個時頻子圖對應該第一音頻檔的一個相位通道。
  3. 如申請專利範圍第1-2項中任一項所述之音頻識別方法,其中該預置資料庫中存儲至少一個音頻檔的標識、該至少一個音頻檔的特徵資訊、以及該至少一個音頻檔的屬性資料;該屬性資料包括以下資料中的至少一種:音頻檔案名稱、音頻檔所屬的專輯資訊、音頻檔的鏈結位址、音頻檔的歌詞。
  4. 如申請專利範圍第3項所述之音頻識別方法,其中從該預置資料庫查找與該第一特徵資訊相匹配的至少一個第二特徵資訊,包括下列步驟:將該第一特徵資訊與該預置資料庫中的每個特徵資訊進行比對,根據比對結果對該預置資料庫中的每個特徵資訊所對應的音頻檔的標識進行加權處理;按照權重由高至低的順序,從該預置資料庫中選擇第二預設數量的音頻檔的特徵資訊組成候選列表;計算該候選列表中的每個音頻檔的特徵資訊與該第一特徵資訊的時間相關性;以及從該候選列表中選取與該第一特徵資訊相匹配的至少一個第二特徵資訊,其中,該第二特徵資訊與該第一特徵資訊的時間相關性大於預設閾值。
  5. 一種音頻識別裝置,包括:採集模組,用於在接收音頻識別請求時,採集待識別的第一音頻檔;計算模組,用於計算該第一音頻檔的第一特徵資訊;識別模組,用於從預置資料庫查找與該第一特徵資訊相匹配的至少一個第二特徵資訊;獲取模組,用於獲取該至少一個第二特徵資訊中的每個第二特徵資訊對應的第二音頻檔的屬性資料;以及結果輸出模組,用於將該第二音頻檔的屬性資料作為該第一音頻檔的識別結果進行輸出;其中,該計算模組更包括:一時頻分析單元,用於對該第一音頻檔進行時頻分析,生成第一預設數量的相位通道;一特徵提取單元,用於提取該第一預設數量的相位通道中的每個相位通道的至少一個峰值特徵點,每個相位通道的該至少一個峰值特徵點構成每個相位通道的峰值特徵點序列;一配對處理單元,用於對每個相位通道的該峰值特徵點序列中的每個峰值特徵點進行配對處理,形成每個相位通道的峰值特徵點對序列;一計算單元,用於對每個相位通道的該峰值特徵點對序列進行哈希計算,獲得每個相位通道對應的指紋序列,該第一預設數量的相位通道對應的該指紋序列的集合構成該第一音頻檔的該第一特徵資訊。
  6. 如申請專利範圍第5項所述之音頻識別裝置,其中該時 頻分析模組包括:一分幀處理子單元,用於對該第一音頻檔進行時域分幀處理,形成多個音頻幀信號;一變換子單元,用於對每一個音頻幀信號進行短時傅立葉變換,獲得每一個音頻幀信號的頻率譜;一幅度提取子單元,用於提取每一個音頻幀信號的該頻率譜對應的幅度譜;一繪製子單元,用於根據每一個音頻幀信號的時間、該頻率譜和該幅度譜,繪製該第一音頻檔的時頻圖;以及一拆分子單元,用於按照時間取模的方式,對該第一音頻檔的時頻圖進行拆分,生成第一預設數量的時頻子圖,該第一預設數量的時頻子圖中的一個時頻子圖對應該第一音頻檔的一個相位通道。
  7. 如申請專利範圍第5-6項中任一項所述之音頻識別裝置,其中該預置資料庫中存儲至少一個音頻檔的標識、該至少一個音頻檔的特徵資訊、以及該至少一個音頻檔的屬性資料;該屬性資料包括以下資料中的至少一種:音頻檔案名稱、音頻檔所屬的專輯資訊、音頻檔的鏈結位址、音頻檔的歌詞。
  8. 如申請專利範圍第7項所述之音頻識別裝置,其中該識別模組包括:一特徵比對單元,用於將該第一特徵資訊與該預置資料庫中的每個特徵資訊進行比對;一加權處理單元,用於根據比對結果對該預置資料庫中的每個特徵資訊所對應的音頻檔的標識進行加權處理; 一候選列表生成單元,用於按照權重由高至低的順序,從該預置資料庫中選擇第二預設數量的音頻檔的特徵資訊組成候選列表;一相關性計算單元,用於計算該候選列表中的每個音頻檔的特徵資訊與該第一特徵資訊的時間相關性;以及一匹配單元,用於從該候選列表中選取與該第一特徵資訊相匹配的至少一個第二特徵資訊,其中,該第二特徵資訊與該第一特徵資訊的時間相關性大於預設閾值。
TW102131132A 2013-02-04 2013-08-29 音頻識別方法及裝置 TWI494917B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310042408.0A CN103971689B (zh) 2013-02-04 2013-02-04 一种音频识别方法及装置

Publications (2)

Publication Number Publication Date
TW201432674A TW201432674A (zh) 2014-08-16
TWI494917B true TWI494917B (zh) 2015-08-01

Family

ID=51241107

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102131132A TWI494917B (zh) 2013-02-04 2013-08-29 音頻識別方法及裝置

Country Status (7)

Country Link
JP (1) JP6090881B2 (zh)
KR (1) KR101625944B1 (zh)
CN (1) CN103971689B (zh)
BR (1) BR112015018597A2 (zh)
CA (1) CA2899657C (zh)
TW (1) TWI494917B (zh)
WO (1) WO2014117542A1 (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102038171B1 (ko) * 2012-03-29 2019-10-29 스뮬, 인코포레이티드 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환
US9837068B2 (en) * 2014-10-22 2017-12-05 Qualcomm Incorporated Sound sample verification for generating sound detection model
JP6392450B2 (ja) * 2015-04-13 2018-09-19 日本電信電話株式会社 マッチング装置、判定装置、これらの方法、プログラム及び記録媒体
EP3304251B1 (en) * 2015-06-03 2023-10-11 Razer (Asia-Pacific) Pte. Ltd. Haptics devices and methods for controlling a haptics device
CN105139866B (zh) * 2015-08-10 2018-10-16 泉州师范学院 南音的识别方法及装置
CN106558318B (zh) * 2015-09-24 2020-04-28 阿里巴巴集团控股有限公司 音频识别方法和***
CN105632513A (zh) * 2015-12-18 2016-06-01 合肥寰景信息技术有限公司 一种网络社区的语音过滤方法
CN105575400A (zh) * 2015-12-24 2016-05-11 广东欧珀移动通信有限公司 一种获取歌曲信息的方法、终端、服务器和***
CN105589970A (zh) * 2015-12-25 2016-05-18 小米科技有限责任公司 音乐搜索方法和装置
EP3208800A1 (en) * 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
CN105868397B (zh) 2016-04-19 2020-12-01 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置
CN105825850B (zh) * 2016-04-29 2021-08-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN106708465A (zh) * 2016-12-16 2017-05-24 北京小米移动软件有限公司 智能鞋的控制方法及装置
CN108205546B (zh) * 2016-12-16 2021-01-12 北京酷我科技有限公司 一种歌曲信息的匹配***及方法
CN110322897B (zh) 2018-03-29 2021-09-03 北京字节跳动网络技术有限公司 一种音频检索识别方法及装置
CN110209872B (zh) * 2019-05-29 2021-06-22 天翼爱音乐文化科技有限公司 片段音频歌词生成方法、装置、计算机设备和存储介质
CN110289013B (zh) * 2019-07-24 2023-12-19 腾讯科技(深圳)有限公司 多音频采集源检测方法、装置、存储介质和计算机设备
CN111161758B (zh) * 2019-12-04 2023-03-31 厦门快商通科技股份有限公司 一种基于音频指纹的听歌识曲方法、***及音频设备
CN112784098A (zh) * 2021-01-28 2021-05-11 百果园技术(新加坡)有限公司 一种音频搜索方法、装置、计算机设备和存储介质
CN113268630B (zh) * 2021-06-08 2023-03-10 腾讯音乐娱乐科技(深圳)有限公司 一种音频检索方法、设备及介质
CN113836346B (zh) * 2021-09-08 2023-08-08 网易(杭州)网络有限公司 为音频文件生成摘要的方法、装置、计算设备及存储介质
CN115956270A (zh) * 2022-10-10 2023-04-11 广州酷狗计算机科技有限公司 音频处理方法、装置、设备及存储介质
CN115910042B (zh) * 2023-01-09 2023-05-05 百融至信(北京)科技有限公司 识别格式化音频文件的信息种类的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271182A1 (en) * 2003-12-01 2009-10-29 The Trustees Of Columbia University In The City Of New York Computer-implemented methods and systems for modeling and recognition of speech
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
TW201222526A (en) * 2010-11-29 2012-06-01 Inst Information Industry A method and apparatus for melody recognition
TW201248450A (en) * 2011-05-18 2012-12-01 Microsoft Corp Background audio listening for content recognition

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62159195A (ja) * 1986-01-06 1987-07-15 沖電気工業株式会社 音声パタン作成方法
GR1003625B (el) * 1999-07-08 2001-08-31 Μεθοδος χημικης αποθεσης συνθετων επικαλυψεων αγωγιμων πολυμερων σε επιφανειες κραματων αλουμινιου
US6990453B2 (en) * 2000-07-31 2006-01-24 Landmark Digital Services Llc System and methods for recognizing sound and music signals in high noise and distortion
US7277766B1 (en) * 2000-10-24 2007-10-02 Moodlogic, Inc. Method and system for analyzing digital audio files
JP4425126B2 (ja) * 2002-04-25 2010-03-03 ランドマーク・デジタル・サービシーズ・エルエルシー ロバストかつインバリアントな音声パターンマッチング
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
JP2006106535A (ja) * 2004-10-08 2006-04-20 Nippon Telegr & Teleph Corp <Ntt> 音響信号蓄積検索装置、及び音響信号蓄積検索プログラム
US20070195963A1 (en) * 2006-02-21 2007-08-23 Nokia Corporation Measuring ear biometrics for sound optimization
US7921116B2 (en) * 2006-06-16 2011-04-05 Microsoft Corporation Highly meaningful multimedia metadata creation and associations
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和***
CN102053998A (zh) * 2009-11-04 2011-05-11 周明全 一种利用声音方式检索歌曲的方法及***装置
US8886531B2 (en) * 2010-01-13 2014-11-11 Rovi Technologies Corporation Apparatus and method for generating an audio fingerprint and using a two-stage query
JP5907511B2 (ja) * 2010-06-09 2016-04-26 アデルフォイ リミテッド オーディオメディア認識のためのシステム及び方法
CN102063904B (zh) * 2010-11-30 2012-06-27 广州酷狗计算机科技有限公司 一种音频文件的旋律提取方法及旋律识别***
CN102332262B (zh) * 2011-09-23 2012-12-19 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090271182A1 (en) * 2003-12-01 2009-10-29 The Trustees Of Columbia University In The City Of New York Computer-implemented methods and systems for modeling and recognition of speech
TW201222526A (en) * 2010-11-29 2012-06-01 Inst Information Industry A method and apparatus for melody recognition
CN102479505A (zh) * 2010-11-30 2012-05-30 Jvc建伍株式会社 声音处理装置及声音处理方法
TW201248450A (en) * 2011-05-18 2012-12-01 Microsoft Corp Background audio listening for content recognition

Also Published As

Publication number Publication date
JP2016512610A (ja) 2016-04-28
TW201432674A (zh) 2014-08-16
CN103971689B (zh) 2016-01-27
JP6090881B2 (ja) 2017-03-08
CA2899657A1 (en) 2014-08-07
KR20150108936A (ko) 2015-09-30
BR112015018597A2 (pt) 2017-07-18
CN103971689A (zh) 2014-08-06
WO2014117542A1 (en) 2014-08-07
CA2899657C (en) 2017-08-01
KR101625944B1 (ko) 2016-05-31

Similar Documents

Publication Publication Date Title
TWI494917B (zh) 音頻識別方法及裝置
US9373336B2 (en) Method and device for audio recognition
KR101578279B1 (ko) 데이터 스트림 내 콘텐트를 식별하는 방법 및 시스템
WO2017181852A1 (zh) 一种歌曲确定方法和装置、存储介质
EP2659480B1 (en) Repetition detection in media data
EP2791935B1 (en) Low complexity repetition detection in media data
JP4945877B2 (ja) 高い雑音、歪み環境下でサウンド・楽音信号を認識するシステムおよび方法
CN107293307B (zh) 音频检测方法及装置
CN107967922A (zh) 一种基于特征的音乐版权识别方法
CN105488135B (zh) 直播内容分类方法及装置
CN103729368B (zh) 一种基于局部频谱图像描述子的鲁棒音频识别方法
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
CN112866770A (zh) 一种设备控制方法、装置、电子设备及存储介质
Wang et al. Robust audio fingerprint extraction algorithm based on 2-D chroma
Wang et al. Audio fingerprint based on spectral flux for audio retrieval
US9183840B2 (en) Apparatus and method for measuring quality of audio
Amatov et al. A Semi-Supervised Deep Learning Approach to Dataset Collection for Query-by-Humming Task.
Qian et al. A novel algorithm for audio information retrieval based on audio fingerprint
Lee et al. Audio fingerprinting to identify TV commercial advertisement in real-noisy environment
Subramanian et al. Concert Stitch: Organization and Synchronization of Crowd Sourced Recordings.
CN114329063B (zh) 视频片段检测方法、装置以及设备
CN108648733B (zh) 一种迪曲生成方法及***
Kumar et al. Learning a large-scale vocal similarity embedding for music
Selvakumar et al. Content recognition using audio finger printing
Gramaglia A binary auditory words model for audio content identification