TWI804163B

TWI804163B - 麥克風陣列

Info

Publication number: TWI804163B
Application number: TW111101985A
Authority: TW
Inventors: 黃俊豪; 沈子嵐
Original assignee: 新唐科技股份有限公司
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-06-01
Also published as: CN116506763A; US12022266B2; TW202331699A; US20230232152A1

Abstract

本發明揭露一種麥克風陣列，其包括四通道串列周邊介面、核心邏輯單元、資料接收單元以及語音辨識單元。其中，四通道串列周邊介面包含位元時脈訊號線、幀時脈訊號線以及四個數據訊號線，核心邏輯單元包含除頻模組，將控制訊號及時脈訊號轉換以提供位元時脈訊號及幀時脈訊號。資料接收單元包含移位暫存器及緩衝器，移位暫存器連接四個數據訊號線，接收各數位麥克風的輸入數據，緩衝器連接於移位暫存器。語音辨識單元連接資料接收單元，接收各數位麥克風對應的麥克風訊號以進行語音辨識。

Description

麥克風陣列

本發明是關於一種麥克風陣列，特別是關於一種藉由四通道串列周邊介面形成四個數位麥克風的陣列，且能精準辨識各個麥克風語音數據的麥克風陣列。

在利用語音裝置進行語音辨識時，需要設置數位麥克風來感測語音數據，藉由分析接收到的語音數據來識別目標語音的內容。一般而言，語音裝置會設置多個數位麥克風來進行收音，這些數位麥克風會組成麥克風陣列，朝向不同方向以進行全向性的收音。不同方向所接收到的聲音，必須比對訊號的時間、強度、來源方向等，抑制目標方向以外的聲音以更精準地聚焦於目標方向的聲音。在進行語音辨識時，取得精確的目標語音，能對於後續的分析演算過程提供更高的可靠度，也能通過降低雜訊來提高整體的訊噪比(SNR)。

現有的麥克風陣列，對於每一個數位麥克風需要提供對應的數據傳輸訊號線，且為了使得各個數位麥克風的收音時間同步，還需要傳送時脈訊號的訊號線。在設置多個數位麥克風的情況下，電子裝置或感測晶片需要設計多個接點或接腳來連接上述訊號線，增加電路設計所需空間及製造的成本。此外，單獨控制單一數位麥克風的接收方式，在語音辨識單元的資料傳輸與訊號分析上，也容易出現誤差，難以同時收發多個數位麥克風的語音數據，在後續辨識上的可靠度也難以達到需求。

綜觀前所述，本發明之發明者思索並設計一種麥克風陣列，以期針對習知技術之問題加以改善，進而增進產業上之實施利用。

有鑑於先前技術所述之問題，本發明的目的在於提供一種麥克風陣列，降低所需周邊介面的接點及線路並解決訊號同步的問題。

基於上述目的，本發明提供一種麥克風陣列，其包含四通道串列周邊介面(Quad Serial Peripheral Interface,QSPI)、核心邏輯單元、資料接收單元以及語音辨識單元。其中，四通道串列周邊介面包含位元時脈訊號線、幀時脈訊號線以及四個數據訊號線，四個數據訊號線分別連接數位麥克風，各數位麥克風分別連接位元時脈訊號線及幀時脈訊號線。核心邏輯單元連接控制模組及時脈訊號模組，接收控制模組的控制訊號及時脈訊號模組的時脈訊號，核心邏輯單元包含除頻模組，除頻模組連接位元時脈訊號線及幀時脈訊號線，將控制訊號及時脈訊號轉換以提供位元時脈訊號線的位元時脈訊號及提供幀時脈訊號線的幀時脈訊號。資料接收單元包含移位暫存器(Shift Register)及緩衝器(Buffer)，移位暫存器連接四個數據訊號線，接收各數位麥克風的輸入數據，緩衝器連接於移位暫存器。語音辨識單元連接資料接收單元，接收各數位麥克風對應的麥克風訊號以進行語音辨識。

較佳地，麥克風陣列可包含數據重組模組，數據重組模組設置於資料接收單元當中。

較佳地，數據重組模組可設置於移位暫存器與緩衝器之間，將移位暫存器的輸入串列數據拆解為對應各數位麥克風的串列訊號，並將各串列訊號暫存於緩衝器。

較佳地，緩衝器包含四個先進先出緩衝區，各串列訊號分別儲存於四個先進先出(First In First Out,FIFO)緩衝區，再依序輸出至語音辨識單元以作為各麥克風訊號。

較佳地，麥克風陣列可進一步包含數據重組模組，數據重組模組設置於資料接收單元與語音辨識單元之間。

較佳地，移位暫存器的輸入串列數據暫存於緩衝器，緩衝器包含四個先進先出緩衝區，輸入串列數據儲存於四個先進先出緩衝區，再依序傳送至數據重組模組。

較佳地，數據重組模組將輸入串列數據拆解為對應各數位麥克風的串列訊號，並將各串列訊號輸出至語音辨識單元以作為各麥克風訊號。

較佳地，四通道串列周邊介面包含狀態控制暫存器及周邊匯流排介面控制器，狀態控制暫存器連接於核心邏輯單元，周邊匯流排介面控制器連接狀態控制暫存器、資料接收單元及語音辨識單元。

承上所述，依本發明之麥克風陣列，其可具有一或多個下述優點：

(1)此麥克風陣列能通過單一四通道串列周邊介面同時連接四個數位麥克風以形成麥克風陣列，降低單獨控制個別麥克風所需的接點及線路，簡化輸入介面來改善裝置結構並降低製造成本。

(2)此麥克風陣列的除頻模組可提供麥克風陣列中各個數位麥克風所需的位元時脈訊號及幀時脈訊號，使得各個數位麥克風在傳送語音訊息時能達到訊號時間同步的功能。

(3)此麥克風陣列可通過數據重組模組將交錯的串列數據重組成各個數位麥克風對應的麥克風訊號，使得語音辨識單元在接收數據時能針對各個數位麥克風獨立進行處理，除了具備高傳輸速度外，也能通過分析不同方向的數位麥克風來聚焦高精度的語音數據，提升麥克風陣列的可靠度。

10,20:麥克風陣列

11,21:四通道串列周邊介面

12,22:核心邏輯單元

13,23:資料接收單元

14,24:語音辨識單元

111,211:狀態控制暫存器

112,212:周邊匯流排介面控制器

121,221:除頻模組

131,231:移位暫存器

132,232:緩衝器

133,251:數據重組模組

501:控制模組

502:時脈訊號模組

Data1:第一麥克風數據

Data2:第二麥克風數據

Data3:第三麥克風數據

Data4:第四麥克風數據

D1[0]~D1[N]:第一幀第一數據~第N幀第一數據

D2[0]~D2[N]:第一幀第二數據~第N幀第二數據

D3[0]~D3[N]:第一幀第三數據~第N幀第三數據

D4[0]~D4[N]:第一幀第四數據~第N幀第四數據

I2S_BCLK:位元時脈訊號

I2S_LRCLK:幀時脈訊號

I2S_CH0,M1:第一麥克風

I2S_CH1,M2:第二麥克風

I2S_CH2,M3:第三麥克風

I2S_CH3,M4:第四麥克風

SPI_CLK:位元時脈訊號線

SPI_SS:幀時脈訊號線

SPI_MOSI:主輸出從輸入數據線

SPI_MISO:主輸入從輸出數據線

SPI_IO2:第二輸入輸出訊號線

SPI_IO3:第三輸入輸出訊號線

為使本發明之技術特徵、內容與優點及其所能達成之功效更為顯而易見，茲將本發明配合以下附圖進行說明：第1圖係為本發明實施例之麥克風陣列之示意圖。

第2圖係為本發明實施例之時序訊號與輸入數據之波形示意圖。

第3圖係為本發明實施例之數據重組模組之示意圖。

第4圖係為本發明另一實施例之麥克風陣列之示意圖。

為利貴審查委員瞭解本發明之技術特徵、內容與優點及其所能達成之功效，茲將本發明配合附圖，並以實施例之表達形式詳細說明如下，而其中所使用之圖式，其主旨僅為示意及輔助說明書之用，未必為本發明實施後之真實比例與精準配置，故不應就所附之圖式的比例與配置關係解讀、侷限本發明於實際實施上的權利範圍，合先敘明。

請參閱第1圖，第1圖係為本發明實施例之麥克風陣列之示意圖。如圖所示，麥克風陣列10包含四通道串列周邊介面11、核心邏輯單元12、資料接收單元13以及語音辨識單元14。四通道串列周邊介面11包含位元時脈訊號線SPI_CLK、幀時脈訊號線SPI_SS以及四個數據訊號線，四個數據訊號線包含串列周邊介面(Serial Peripheral Interface,SPI)的主輸出從輸入數據線SPI_MOSI(Master Output Slave Input)、主輸入從輸出數據線SPI_MISO(Master Input Slave Output)、第二輸入輸出訊號線SPI_IO2以及第三輸入輸出訊號線SPI_IO3。在四通道串列周邊介面11當中，位元時脈訊號線SPI_CLK及幀時脈訊號線SPI_SS連接核心邏輯單元12，四個數據訊號線則連接資料接收單元13。

核心邏輯單元12連接控制模組501及時脈訊號模組502，接收控制模組501的控制訊號來驅動核心邏輯單元12，並接受時脈訊號模組502的時脈訊號。在核心邏輯單元12當中設置除頻模組121，除頻模組121在接收控制訊號及時脈訊號後，經過除頻轉換，將時脈訊號轉換成數位麥克風所需要的位元時脈訊號I2S_BCLK以及幀時脈訊號I2S_LRCLK，將其通過連接的位元時脈訊號線SPI_CLK及幀時脈訊號線SPI_SS輸出至數位麥克風，使數位麥克風在感測及傳送訊號時能達到同步的時序。

在四通道串列周邊介面11當中，由於有四個數據訊號線，可分別連接至數位麥克風，例如，第一麥克風I2S_CH0連接主輸出從輸入數據線SPI_MOSI、第二麥克風I2S_CH1連接主輸入從輸出數據線SPI_MISO、第三麥克風I2S_CH2連接第二輸入輸出訊號線SPI_IO2、第四麥克風I2S_CH3連接第三輸入輸出訊號線SPI_IO3。四個數位麥克風形成一個麥克風陣列，接收位元時脈訊號線SPI_CLK的位元時脈訊號I2S_BCLK及幀時脈訊號線SPI_SS的幀時脈訊號I2S_LRCLK，分別由四個數據訊號線輸入各個數位麥克風的感測數據。

資料接收單元13包含移位暫存器131及緩衝器132，緩衝器132連接於移位暫存器131，移位暫存器131連接四個數據訊號線，在資料接收單元13接收各數位麥克風的輸入數據後，將四個數據訊號線的感測數據交錯排列成為輸入串列數據，儲存於移位暫存器131當中。在本實施例中，資料接收單元13還包含了數據重組模組133，數據重組模組133設置於移位暫存器131與緩衝器132之間，數據重組模組133將移位暫存器131當中的輸入串列數據拆解為對應各個數位麥克風的串列訊號，再將各個串列訊號暫存於緩衝器132。緩衝器132包含四個先進先出緩衝區，四個數位麥克風的串列訊號可分別儲存於四個先進先出緩衝區，再依序輸出至語音辨識單元14來進行各個數位麥克風訊號的辨識。數據重組模組133可將交錯排列的輸入串列數據重新排列，使得同一個數位麥克風的輸入數據可儲存在同一個緩衝區中，語音辨識單元14在接收到數據時，可直接針對各個數位麥克風的數據進行分析。

四通道串列周邊介面11包含狀態控制暫存器111及周邊匯流排介面控制器112，狀態控制暫存器111連接於核心邏輯單元12，周邊匯流排介面控制器112連接狀態控制暫存器111、資料接收單元13及語音辨識單元14。資料接收單元13當中的緩衝器132，通過周邊匯流排介面控制器112將各個數位麥克風的串列訊號傳送至語音辨識單元14，由語音辨識單元對各個數位麥克風對應的麥克風訊號以進行語音辨識。通過辨識不同麥克風的聲音，可以確認在訊號時間中各個方向的數位麥克風的訊號強度，藉由抑制目標方向以外的聲音，提高目標方向語音的辨識度，進而提高語音辨識的可靠度及系統訊噪比(SNL)。

請參閱第2圖，第2圖係為本發明實施例之時序訊號與輸入數據之波形示意圖。請同時參閱第1圖，時脈訊號模組502的時脈訊號可通過除頻模組121除頻後，得到晶片內部聲音訊號(Inter IC Sound,I2S)所需要的位元時脈訊號I2S_BCLK以及幀時脈訊號I2S_LRCLK。例如，時脈訊號模組502的時脈訊號原本為12MHz，位元時脈訊號I2S_BCLK可以將時脈訊號的12MHz除8而得到1.5MHz，幀時脈訊號I2S_LRCLK則將12MHz除250而得到48kHz，以此作為取得48kHz的聲音所需的時脈訊號，並將位元時脈訊號I2S_BCLK以及幀時脈訊號I2S_LRCLK分別輸出至四個數位麥克風，使得四個數位麥克風能達到訊號同步的控制結果。相較於現有數位麥克風需要分別配置位元時脈訊號線及幀時脈訊號線，本揭露的麥克風陣列確實能節省所需連接端點與時脈訊號線的數量，有效降低晶片製造成本。

依據共同位元時脈訊號I2S_BCLK以及幀時脈訊號I2S_LRCLK，各個數位麥克風就可同步接收聲音數據，例如，第一麥克風I2S_CH0傳送第一麥克風數據Data1、第二麥克風I2S_CH1傳送第二麥克風數據Data2、第三麥克風I2S_CH2傳送第三麥克風數據Data3、第四麥克風I2S_CH3傳送第四麥克風數據Data4。各個數位麥克風數據依序傳送第N幀的左聲道數據及右聲道數據後，再接著第N+1幀的數據，由資料接收單元13接收。

請參閱第3圖，第3圖係為本發明實施例之數據重組模組之示意圖。請同時參閱第1圖，資料接收單元13包含移位暫存器131及緩衝器132，數據重組模組133設置於移位暫存器131與緩衝器132之間。資料接收單元13分別通過四個數據訊號線接收四個數位麥克風的數據，例如第一麥克風M1的第一麥克風數據Data1、第二麥克風M2的第二麥克風數據Data2、第三麥克風M3的第三麥克風數據Data3、第四麥克風M4的第四麥克風數據Data4。在數據進入資料接收單元13後，會依序交錯排列於移位暫存器131的數據列當中，若數據列可儲存32筆數據，第一麥克風M1的第一幀第一數據D1[0]、第二麥克風M2的第一幀第一數據D2[0]直到第四麥克風M4的第七幀數據D4[7]的32筆數據資料儲存於第一數據列，以下不同幀的數據依序類推。若是將數據列直接由緩衝器132的緩衝區輸出，則不同數位麥克風的數據會交錯儲存，當語音辨識單元14接收到時無法直接區分個別數位麥克風的數據，在語音辨識時難以直接進行分析，產生分析效率低落的問題。為解決此問題，進一步在資料接收單元13中設置了數據重組模組133。

在本實施例中，數據重組模組133將數據列的串列數據，拆解後重組為對應各個數位麥克風的串列訊號，再分別儲存於緩衝器132的各個緩衝區當中。例如緩衝器132具有四個先進先出的緩衝區，數據重組模組133拆解串列數據後，將第一麥克風M1的N幀數據(D1[0],D1[1],...,D1[N])儲存於第一個緩衝區，第二麥克風M2的N幀數據(D2[0],D2[1],...,D2[N])儲存於第二個緩衝區，以下依此類推。當緩衝器132的麥克風數據輸出至語音辨識單元14時，各個數位麥克風的語音數據可依序輸出，不但能維持原本緩衝器132的高傳輸速度，也能使語音辨識單元14區分不同數位麥克風所對應的語音數據，在進行辨識時能準確分析各個數位麥克風的收音狀態，藉由不同方向的數位麥克風的辨識達到高精度的辨識效果。

請參閱第4圖，第4圖係為本發明另一實施例之麥克風陣列之示意圖。如圖所示，麥克風陣列20包含四通道串列周邊介面21、核心邏輯單元22、資料接收單元23以及語音辨識單元24。四通道串列周邊介面21包含位元時脈訊號線SPI_CLK、幀時脈訊號線SPI_SS以及四個數據訊號線，四個數據訊號線包含串列周邊介面(Serial Peripheral Interface,SPI)的主輸出從輸入數據線SPI_MOSI(Master Output Slave Input)、主輸入從輸出數據線SPI_MISO(Master Input Slave Output)、第二輸入輸出訊號線SPI_IO2以及第三輸入輸出訊號線SPI_IO3。在四通道串列周邊介面21當中，位元時脈訊號線SPI_CLK及幀時脈訊號線SPI_SS連接核心邏輯單元22，四個數據訊號線則連接資料接收單元23。

核心邏輯單元22連接控制模組501及時脈訊號模組502，接收控制模組501的控制訊號來驅動核心邏輯單元22，並接受時脈訊號模組502的時脈訊號。在核心邏輯單元22當中設置除頻模組221，除頻模組221在接收控制訊號及時脈訊號後，經過除頻轉換，將時脈訊號轉換成數位麥克風所需要的位元時脈訊號I2S_BCLK以及幀時脈訊號I2S_LRCLK，將其通過連接的位元時脈訊號線SPI_CLK及幀時脈訊號線SPI_SS輸出至數位麥克風，使數位麥克風在感測及傳送訊號時能達到同步的時序。

在四通道串列周邊介面21當中，由於有四個數據訊號線，可分別連接至數位麥克風，四個數據訊號線包含主輸出從輸入數據線SPI_MOSI、主輸入從輸出數據線SPI_MISO、第二輸入輸出訊號線SPI_IO2、第三輸入輸出訊號線SPI_IO3，分別連接至數位麥克風來接收各個數位麥克風的感測數據。

資料接收單元23包含移位暫存器231及緩衝器232，緩衝器232連接於移位暫存器231，移位暫存器231連接四個數據訊號線，在資料接收單元13接收各數位麥克風的輸入數據後，將四個數據訊號線的感測數據交錯排列成為輸入串列數據，儲存於移位暫存器231當中。緩衝器232包含四個先進先出緩衝區，輸入串列數據儲存於四個先進先出緩衝區，再依序輸出。四通道串列周邊介面21包含狀態控制暫存器211及周邊匯流排介面控制器212，狀態控制暫存器211連接於核心邏輯單元22，周邊匯流排介面控制器212連接狀態控制暫存器211、資料接收單元23及語音辨識單元24。

在本實施例中，由四個數據訊號線接收的麥克風數據，會交錯儲存為輸入串列數據再由緩衝器232依序輸出，但此輸入串列數據同時具有四個數位麥克風的輸入訊號，在進行語音辨識時難以迅速且正確地完成各個數位麥克風的辨識，造成辨識效率及準確率上的問題。對此，在本實施例中，進一步設置數據重組模組251，數據重組模組251設置於資料接收單元23與語音辨識單元24之間，例如資料接收單元23的緩衝器232將輸入串列數據通過周邊匯流排介面控制器212傳送至數據重組模組251，通過數據重組模組251將輸入串列數據拆解為對應各數位麥克風的串列訊號，再將各串列訊號輸出至語音辨識單元24以作為對應各個數位麥克風的麥克風訊號。

數據重組模組251可依據如第3圖的拆解方式，將輸入串列數據拆解為四個數位麥克風個別的串列訊號，使得語音辨識單元24能同時抓取四個數位麥克風的資料，依據數位麥克風方向設定，將目標方向的主要聲音過濾出來，進而進行語音辨識的演算分析。通過本揭露的麥克風陣列20的設置方式，可以通過單一四通道串列周邊介面21即可同時接收四個數位麥克風的數據，且可通過數據重組而使得接收的語音數據可依不同數位麥克風進行獨立分析，讓語音辨識能更有效率且更準確的分析目標語音。更進一步來說，針對語音辨識結果，可提供對應的控制指令或操作指令，讓語音控制或操作能正確執行。

以上所述僅為舉例性，而非為限制性者。任何未脫離本發明之精神與範疇，而對其進行之等效修改或變更，均應包含於後附之申請專利範圍中。

10:麥克風陣列

11:四通道串列周邊介面

12:核心邏輯單元

13:資料接收單元

14:語音辨識單元

111:狀態控制暫存器

112:周邊匯流排介面控制器

121:除頻模組

131:移位暫存器

132:緩衝器

133:數據重組模組