TWI690919B

TWI690919B - 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品

Info

Publication number: TWI690919B
Application number: TW107113595A
Authority: TW
Inventors: 王珺; 黃志恒; 于蒙; 蒲松柏
Original assignee: 大陸商騰訊科技（深圳）有限公司
Priority date: 2017-05-27
Filing date: 2018-04-20
Publication date: 2020-04-11
Also published as: CN110444199B; CN110444199A; CN107230475B; WO2018219023A1; TW201832221A; CN110349572B; CN107230475A; CN110349572A

Abstract

一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品，該方法包括：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字；確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配，則確定第一語音中包括語音關鍵字。

Description

語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品

本揭示關於語音辨識技術領域，特別是關於一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品。

隨著科技的發展，語音喚醒技術在電子設備中的應用越來越廣泛，其極大程度地方便了使用者對電子設備的操作，允許使用者與電子設備之間無需手動交互，即可通過語音關鍵字啟動電子設備中相應的處理模組。

例如，蘋果手機採用關鍵字“siri”作為啟動蘋果手機中的語音對話智慧助理功能的語音關鍵字，當蘋果手機檢測到使用者輸入包括關鍵字“siri”的語音時，自動啟動蘋果手機中的語音對話智慧助理功能。

有鑑於此，提供一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品，以實現對語音中的語音關鍵字的識別，對於語音喚醒技術的發展是至關重要的。

有鑑於此，本揭示實施例提供一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品，以實現對語音中的語音關鍵字的識別。

為實現上述目的，本揭示實施例提供如下技術方案。

一種語音關鍵字識別方法，包括：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。

一種語音關鍵字識別裝置，包括：一第一目標幀確定單元，用於從構成第一語音的第一幀序列中選取一個第一目標幀；一目標關鍵字確定單元，用於從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；一匹配單元，用於若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及一識別單元，用於若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。

一種終端，包括：至少一記憶體；以及至少一處理器，用於儲存程式；其中所述處理器調用所述程式，所述程式用於：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。

一種伺服器，包括：至少一記憶體；以及至少一處理器，用於儲存程式；其中所述處理器調用所述程式，所述程式用於：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。

一種電腦可讀儲存介質，包括指令，當其在電腦上運行時，使得電腦執行上述方法。

一種電腦程式產品，包括指令，當其在電腦上運行時，使得電腦執行上述方法。

本揭示實施例公開了一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品，包括：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。有效實現了對第一語音中的語音關鍵字的識別。進一步，便於使用語音喚醒技術的電子設備在識別出第一語音中包括語音關鍵字時，自動啟動與所述語音關鍵字相應的處理模組。

11‧‧‧處理器

12‧‧‧記憶體

13‧‧‧通信介面

14‧‧‧通信匯流排

91‧‧‧第一目標幀確定單元

92‧‧‧目標關鍵字確定單元

93‧‧‧匹配單元

94‧‧‧識別單元

101‧‧‧第二語音確定單元

102‧‧‧終層特徵向量確定單元

103‧‧‧第二目標幀確定單元

104‧‧‧關鍵字範本生成子單元

111‧‧‧第一候選幀確定單元

112‧‧‧第二候選幀確定單元

113‧‧‧第二目標幀確定子單元

S201-S204、S301-S305、S401-S402、S501-S504、S601-S604、S701-S703、S801-S807‧‧‧步驟

第1圖為本揭示實施例提供的一種語音關鍵字識別伺服器的結構示意圖。

第2圖為本揭示實施例提供的一種語音關鍵字識別方法的流程圖。

第3圖為本揭示實施例提供的另一種語音關鍵字識別方法的流程圖。

第4圖為本揭示實施例提供的一種從構成第一語音的第一幀序列中選取一個幀確定為第一目標幀的方法流程圖。

第5圖為本揭示實施例提供的一種從語音關鍵字包括的關鍵字序列中選取一個關鍵字確定為目標關鍵字的方法流程圖。

第6圖為本揭示實施例提供的一種與目標關鍵字對應的關鍵字範本的生成方法流程圖。

第7圖為本揭示實施例提供的一種基於分別與每個幀對應的終層特徵向量，從第二幀序列中選取與目標關鍵字的相似程度最高的幀作為第二目標幀的方法流程圖。

第8圖為本揭示實施例提供的又一種語音關鍵字識別方法的流程圖。

第9圖為本揭示實施例提供的一種語音關鍵字識別裝置的結構示意圖。

第10圖為本揭示實施例提供的一種關鍵字範本生成單元的詳細結構示意圖。

第11圖為本揭示實施例提供的一種第二目標幀確定單元的詳細結構示意圖。

為了使本揭示所屬技術領域中具有通常知識者更好地理解本揭示方案，下面將結合本揭示實施例中的附圖，對本揭示實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本揭示一部分的實施例，而不是全部的實施例。基於本揭示中的實施例，本揭示所屬技術領域中具有通常知識者在沒有做出創造性勞動前提下所獲得的所有其他實施例，都應當屬於本揭示保護的範圍。

本揭示實施例提供一種語音關鍵字識別方法，應用於終端或伺服器。

在本揭示實施例中，可選地，終端為電子設備，例如，移動終端、桌上型電腦等。以上僅僅是本揭示實施例提供的終端的可選方式，可根據自己的需求任意設置終端的具體表現形式，在此不做限定。

可選地，應用本揭示實施例提供的一種語音關鍵字識別方法的伺服器(此處可稱為語音關鍵字識別伺服器)的功能可由單台伺服器實現，也可由多台伺服器構成的伺服器集群實現，在此不做限定。

以伺服器為例，本揭示實施例提供的一種語音關鍵字識別伺服器的結構示意圖，具體請參見第1圖。語音關鍵字識別伺服器包括：至少一處理器11和至少一記憶體12。

處理器11、記憶體12、通信介面13通過通信匯流排14完成相互間的通信。

可選地，通信介面13可以為通信模組的介面，如全球移動通信系統(Global System for Mobile Communication，GSM)模組的介面。

處理器11用於執行程式。處理器11可能是一個中央處理器 (Central Processing Unit，CPU)，或者是特定積體電路(Application Specific Integrated Circuit，ASIC)，或者是被配置成實施本揭示實施例的一個或多個積體電路。

記憶體12用於存放程式。程式可以包括程式碼，程式碼包括電腦操作指令。在本揭示實施例中，程式可以包括使用者介面編輯器對應的程式。

記憶體12可以包含高速隨機存取記憶體(Random Access Memory，RAM)記憶體，也可能還包括非易失性記憶體(Non-Volatile Memory，NVM)，例如至少一個磁碟記憶體。

程式可具體用於：從構成第一語音的第一幀序列中選取一個幀確定為第一目標幀；從語音關鍵字包括的關鍵字序列中選取一個關鍵字確定為目標關鍵字；確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配成功，關鍵字範本指示包括目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及在匹配成功的情況下，若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功，確定第一語音中包括語音關鍵字。

相應地，本揭示實施例提供的一種終端的結構中至少包括如上述第1圖所示的語音關鍵字識別伺服器的結構，有關終端的結構請參見上述對語音關鍵字識別伺服器的結構的描述，在此不做贅述。

相應地，本揭示實施例提供一種語音關鍵字識別方法的流程圖，請參見第2圖。如第2圖所示，該方法包括下列步驟。

步驟S201、從構成第一語音的第一幀序列中選取一個第一目標幀。

步驟S202、從關鍵字序列中選取一個關鍵字確定為目標關鍵字，所述關鍵字序列屬於所述語音關鍵字。

步驟S203、確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配成功，關鍵字範本指示包括目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則執行步驟S204。

可選地，預設有語音模型，將包括目標關鍵字的第二語音(第二語音包括第二幀序列)輸入語音模型後，可得到第二語音中的第二目標幀的隱層特徵向量，與目標關鍵字對應的關鍵字範本指示所得到的隱層特徵向量。

可選地，語音模型基於時間遞迴神經網路(Long Short-Term Memory，LSTM)以及目標準則(Connectionist Temporal Classification，CTC)生成。

以上僅僅是本揭示實施例提供的語音模型生成的可選方式，可根據需求任意設置語音模型的具體生成過程，在此不做限定。

可選地，將包括第一幀序列的第一語音輸入語音模型，可得到與第一語音中的第一目標幀對應的隱層特徵向量。

相應地，將第一目標幀的隱層特徵向量與目標關鍵字對應的關鍵字範本進行匹配，確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配成功，如果匹配成功執行步驟S204。

在本揭示實施例中，可選地，確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配成功包括：計算第一目標幀的隱層特徵向量與目標關鍵字對應的關鍵字範本之間的餘弦距離；若計算得到的餘弦距離滿足預設值，則確定第一目標幀的隱層特徵向量與目標關鍵字對應的關鍵字範本匹配成功；若計算得到的餘弦距離不滿足預設值，則確定第一目標幀的隱層特徵向量與目標關鍵字對應的關鍵字範本匹配不成功(失敗)。

步驟S204、若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功，則確定第一語音中包括語音關鍵字。

可選地，在步驟S203確定匹配成功的情況下，判斷當前是否已經逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功；如果是，確定第一語音中包括語音關鍵字。

第3圖為本揭示實施例提供的另一種語音關鍵字識別方法的流程圖。如第3圖所示，該方法包括下列步驟。

步驟S301、從構成第一語音的第一幀序列中選取一個第一目標幀。

步驟S302、從語音關鍵字包括的關鍵字序列中選取一個關鍵字確定為目標關鍵字。

步驟S303、確定第一目標幀的隱層特徵向量是否與目標關鍵字對應的關鍵字範本匹配成功，關鍵字範本指示包括目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；在第一目標幀的隱層特徵向量與目標關鍵字對應的關鍵字範本匹配成功的情況下，執行步驟S304；在匹配不成功的情況下，返回執行步驟S301。

步驟S304、判斷是否已逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功，如果是，執行步驟S305；如果否，返回執行步驟S301。

可選地，逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功包括：針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於第一語音中的幀的隱層特徵向量與其匹配成功；並且，匹配關鍵字範本成功的各個關鍵字，按照匹配成功的先後順序進行排序後得到的結果為關鍵字序列。

步驟S305、確定第一語音中包括語音關鍵字。

為了便於對本揭示實施例提供的一種語音關鍵字識別方法的理解，以下提供一種從構成第一語音的第一幀序列中選取一個幀確定為第一目標幀的方法流程圖，請參見第4圖。如第4圖所示，該方法包括下列步驟。

步驟S401、從構成第一語音的第一幀序列中確定第一個從未被確定為第一目標幀的幀。

步驟S402、將所述第一個從未被確定為所述第一目標幀的幀選取為所述第一目標幀。

可選地，第一語音包括第一幀序列，第一幀序列由依次排列的至少一個幀構成。從構成第一語音的第一幀序列中選取一個幀確定為第一目標幀包括：從第一幀序列中選取一個幀作為第一目標幀，第一目標幀為第一幀序列中從未被作為第一目標幀且在第一幀序列中排序最靠前的幀。

為了便於對本揭示實施例提供的一種語音關鍵字識別方法的理解，以下提供一種從語音關鍵字包括的關鍵字序列中選取一個關鍵字確定為目標關鍵字的方法流程圖，請參見第5圖。如第5圖所示，該方法包括下列步驟。

步驟S501、從語音關鍵字包括的關鍵字序列中，確定與最近一次匹配成功的關鍵字範本對應的關鍵字相鄰的下一關鍵字。

可選地，關鍵字序列由依次排序的多個關鍵字構成。

例如，若語音關鍵字包括的關鍵字序列為“小紅你好”時，若最近一次匹配成功的關鍵範本對應的關鍵字為“紅”，則語音關鍵字包括的關鍵字序列中，與最近一次匹配成功的關鍵字範本對應的關鍵字相鄰的下一關鍵字為關鍵字“你”。

步驟S502、判斷下一關鍵字被連續確定為目標關鍵字的次數是否達到預設的閾值；若下一關鍵字被連續確定為目標關鍵字的次數未達到預設的閾值，則執行步驟S503；若下一關鍵字被連續確定為目標關鍵字的次數達到閾值，則執行步驟S504。

可選地，預設的閾值為30次，以上僅僅是本揭示實施例提供的閾值的可選方式，可根據需求任意設置閾值的具體內容，在此不做限定。

步驟S503、將下一關鍵字確定為目標關鍵字。

步驟S504、將關鍵字序列中的第一個關鍵字確定為目標關鍵字。

例如，若語音關鍵字包括的關鍵字序列為“小紅你好”時，將關鍵字序列中的第一個關鍵字確定為目標關鍵字，包括：將關鍵字序列中的第一個關鍵字“小”，確定為目標關鍵字。

為了便於對本揭示實施例提供的一種語音關鍵字識別方法的理解，以下提供一種與目標關鍵字對應的關鍵字範本的生成方法流程圖，請參見第6圖。如第6圖所示，該方法包括下列步驟。

步驟S601、確定包括目標關鍵字的第二語音，第二語音由第二幀序列構成。

可選地，生成與目標關鍵字對應的關鍵字範本的過程包括：確定包括目標關鍵字的第二語音，第二語音由第二幀序列構成，第二幀序列由依次排列的至少一個幀構成。

步驟S602、將第二語音作為預設的語音模型的輸入資訊，確定分別與第二幀序列中的每個幀對應的終層特徵向量。

可選地，預設有語音模型，語音模型的輸入資訊為語音(如第二語音)/幀，輸出資訊可包括分別與輸入的每個幀對應的隱層特徵向量和終層特徵向量。

在本揭示實施例中，可選地，將第二語音作為語音模型的輸入資訊，得到第二語音包括的第二幀序列中的每個幀對應的終層特徵向量。

步驟S603、基於分別與每個幀對應的終層特徵向量，從第二幀序列中確定第二目標幀。

可選地，根據第二語音包括的第二幀序列中的每個幀對應的終層特徵向量，從第二語音中選取一個幀作為第二目標幀。

步驟S604、根據將第二目標幀作為語音模型的輸入資訊所得到的與第二目標幀對應的隱層特徵向量，生成與目標關鍵字對應的關鍵字範本。

可選地，第二目標幀作為語音模型的輸入資訊，得到的與第二目標幀對應的隱層特徵向量的過程，可以在步驟S602中實現，將第二語音作為預設的語音模型的輸入資訊，確定分別與第二幀序列中的每個幀對應的終層特徵向量，以及分別與第二幀序列中的每個幀對應的隱層特徵向量；進而，在步驟S604執行過程中，直接從步驟S602的“分別與第二幀序列中的每個幀對應的隱層特徵向量”結果中，直接獲取與第二目標幀對應的隱層特徵向量。

以上僅僅是本揭示實施例的可選方式，可根據需求任意設置“將第二目標幀作為語音模型的輸入資訊所得到的與第二目標幀對應的隱層特徵向量”的實現方式，例如將“將第二目標幀作為語音模型的輸入資訊所得到的與第二目標幀對應的隱層特徵向量”過程獨立於步驟S602實現，在此不做限定。

可選地，第二語音的個數為至少一個，根據與第二目標幀對應的隱層特徵向量，生成與目標關鍵字對應的關鍵字範本包括：確定分別與每個第二語音的第二目標幀對應的隱層特徵向量，對所確定的各個隱層特徵向量求平均，並將所得到的結果作為與目標關鍵字對應的關鍵字範本。

為了便於對本揭示實施例提供的一種語音關鍵字識別方法的理解，以下提供一種基於分別與每個幀對應的終層特徵向量，從第二幀序列中確定第二目標幀的方法進行詳細介紹。

在本揭示實施例中，可選地，幀對應的終層特徵向量包括幀分別與語音模型中預設的文字集中的每個文字之間的相似度，目標關鍵字為文字集中的一個文字。

例如，若文字集為5200個漢字，則幀對應的終層特徵向量包括幀分別與5200個漢字中的每個漢字的相似度。

基於分別與每個幀對應的終層特徵向量，從第二幀序列中確定第二目標幀包括：根據分別與每個幀對應的終層特徵向量，從第二幀序列中選取與目標關鍵字的相似程度最高的幀作為第二目標幀；幀與目標關鍵字的相似程度根據幀分別與文字集中的每個文字之間的相似度確定。

為了便於理解，以下提供一種基於分別與每個幀對應的終層特徵向量，從第二幀序列中選取與目標關鍵字的相似程度最高的幀作為第二目標幀的方法流程圖，請參見第7圖。如第7圖所示，該方法包括下列步驟。

步驟S701、從第二幀序列中確定至少一個第一候選幀，第一候選幀與目標關鍵字的相似度小於第一候選幀與文字集中的至少一個文字的相似度，至少一個文字的個數小於預設數值。

步驟S702、從至少一個第一候選幀中確定至少一個第二候選幀，至少一個第二候選幀為至少一個第一候選幀中與目標關鍵字的相似度最大的第一候選幀。

步驟S703、從至少一個第二候選幀中確定第二目標幀，按照相似度從高到低的順序，第二目標幀與目標關鍵字的相似度位於第二目標幀與各文字的相似度中的排名，高於除了第二目標幀以外的每個第二候選幀與目標關鍵字的相似度位於第二候選幀與各文字的相似度中的排名。

進一步，為了便於對本揭示實施例提供的如第7圖所示的一種基於分別與每個幀對應的終層特徵向量，從第二幀序列中選取與目標關鍵字的相似程度最高的幀作為第二目標幀的方法的理解，現舉例說明如下。

若第二語音包括的第二幀序列包括四個幀，分別為幀1、幀 2、幀3和幀4，語音模型中預設的文字集包括4個文字，分別為文字1、文字2、文字3和文字4，其中文字3為目標關鍵字。

將第二語音作為語音模型的輸入資訊輸入至語音模型，得到與幀1對應的終層特徵向量1、與幀2對應的終層特徵向量2、與幀3對應的終層特徵向量3、以及與幀4對應的終層特徵向量4。

終層特徵向量1包括幀1與文字1的相似度11、幀1與文字2的相似度12、幀1與文字3的相似度13和幀1與文字4的相似度14。相似度11為20%，相似度12為30%，相似度13為15%，相似度14為50%。

終層特徵向量2包括幀2與文字1的相似度21、幀2與文字2的相似度22、幀2與文字3的相似度23和幀2與文字4的相似度24。相似度21為15%，相似度22為5%，相似度23為65%，相似度24為95%。

終層特徵向量3包括幀3與文字1的相似度31、幀3與文字2的相似度32、幀3與文字3的相似度33和幀3與文字4的相似度34。相似度31為10%，相似度32為20%，相似度33為65%，相似度34為30%。

終層特徵向量4包括幀4與文字1的相似度41、幀4與文字2的相似度42、幀4與文字3的相似度43和幀4與文字4的相似度44。相似度41為10%，相似度42為20%，相似度43為55%，相似度44為30%。

首先，從第二幀序列中確定至少一個第一候選幀，第一候選幀與目標關鍵字的相似度小於第一候選幀與文字集中的至少一個文字的相似度，至少一個文字的個數小於預設數值，若預設數值為3時，則說明：從第二幀序列中確定至少一個第一候選幀，具體地，第一候選幀與文字集中的每個文字的相似度按照從大到小的順序進行排列得到一個序列，第一候選幀與目標關鍵字的相似度位於此序列的前3位以內(第一候選幀與目標關鍵字的相似度位於此序列的第1位、第2位或第3位)。此時，從第二幀序列中確定的至少一個第一候選幀包括3個，分別為幀2、幀3和幀4。

從至少一個第一候選幀中確定至少一個第二候選幀：因此時相似度23和相似度33相等，均為65%；相似度43為55%；故從至少一個第一候選幀中確定出的至少一個第二候選幀包括2個，分別為幀2和幀3。

從至少一個第二候選幀中確定第二目標幀：因與幀3對應的相似度33在幀3對應的各個相似度中的排名為第1位；幀2對應的相似度23在幀2對應的各個相似度中的排名為第2位，故選擇與第1位對應的幀3作為第二目標幀。

通過上述對本揭示實施例提供的一種語音關鍵字識別方法的詳細介紹，使得本揭示實施例提供的一種語音關鍵字識別方法更加清晰、完整，便於本揭示所屬技術領域中具有通常知識者理解。

進一步，為了便於理解上述實施例提供的一種語音關鍵字識別方法，下面對此方法進行更具體的詳細說明。

需要注意的是，該方法中對應的第一語音包括的第一幀序列中的每個幀設置有唯一的幀ID，幀在第一幀序列中的序位號即為幀的幀ID。例如，第一幀序列包括依次排序的三個幀，分別為幀1、幀3和幀2。則幀1的序位號為1，幀ID為1；幀3的序位號為2，幀ID為2；幀2的序位號為3，幀ID為3。

可選地，語音關鍵字包括的關鍵字序列中的每個關鍵字設置有唯一的關鍵字ID，關鍵字在關鍵字序列中的序位號為關鍵字的關鍵字ID。例如，關鍵字序列包括依次排序的4個關鍵字，分別為關鍵字1、關鍵字3關鍵字2和關鍵字4。則關鍵字1的序位號為1，關鍵字ID為1；關鍵字3的序位號為2，關鍵字ID為2；關鍵字2的序位號為3，關鍵字ID為3；關鍵字4的序位號為4，關鍵字ID為4。

請參見第8圖。如第8圖所示，該方法包括下列步驟。

步驟S801、初始化幀ID：n=0；關鍵字ID：m=1；計數器置零。

步驟S802、i=n++；判斷第一語音包括的第一幀序列中的第i 個幀的隱層特徵向量與語音關鍵字中的第m個關鍵字對應關鍵字範本是否匹配成功；如果匹配成功，執行步驟S803；如果匹配失敗，執行步驟S806。

步驟S803、判斷當前關鍵字是否為語音關鍵字包括的關鍵字序列中的最後一個關鍵字；如果是，執行步驟S804；如果否，執行步驟S805。

步驟S804、確定第一語音中包括語音關鍵字。

步驟S805、設置計數器的計數s為觸發初始值；n++；返回執行步驟S802。

可選地，觸發初始值即為上述步驟S502中所涉及到的閾值。可選地，觸發初始值為30。

以上僅僅是本揭示實施例提供的觸發初始值的可選方式，可根據需求任意設置觸發初始值的具體數值，在此不做限定。

步驟S806、s--。

可選地，s--表示計數器的計數減一。

步驟S807、判斷計數器的計數s是否大於0；若是，返回執行步驟S802；若否，返執行步驟S801。

以上僅僅是本揭示實施例提供的一種語音關鍵字識別方法的可選方式，具體地，可根據需求任意設置本揭示實施例提供一種語音關鍵字識別方法的具體實現方式，在此不做限定。

上述本揭示公開的實施例中詳細描述了方法，對於本揭示的方法可採用多種形式的裝置實現，因此本揭示還公開了一種裝置，下面給出具體的實施例進行詳細說明。

如第9圖所示，該裝置包括：第一目標幀確定單元91，用於從構成第一語音的第一幀序列中選取一個第一目標幀。

目標關鍵字確定單元92，用於從關鍵字序列中選取一個關鍵字確定為目標關鍵字，所述關鍵字序列屬於所述語音關鍵字。

匹配單元93，用於若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量。

識別單元94，用於若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。進一步，本揭示實施例提供的一種語音關鍵字識別裝置還包括：返回執行單元，用於在匹配失敗的情況下，返回執行“從構成第一語音的第一幀序列中選取一個幀確定為第一目標幀”步驟。

本揭示實施例提供第一目標幀確定單元91的一種可選結構。

可選地，第一目標幀確定單元91包括：第一確定單元，用於從構成第一語音的第一幀序列中確定第一個從未被確定為第一目標幀的幀。

第二確定單元，用於將所確定的幀作為從構成第一語音的第一幀序列中確定的第一目標幀。

本揭示實施例提供目標關鍵字確定單元92的一種可選結構。

可選地，目標關鍵字確定單元92包括：第三確定單元，用於從所述語音關鍵字包括的所述關鍵字序列中，確定與最近一次匹配成功的關鍵字範本對應的關鍵字相鄰的下一關鍵字。

第四確定單元，用於若下一關鍵字被連續確定為目標關鍵字的次數未達到預設的閾值，將下一關鍵字確定為目標關鍵字。

第五確定單元，用於若所述下一關鍵字被連續確定為目標關鍵字的次數達到所述閾值，將所述關鍵字序列中的第一個關鍵字確定為目標關鍵字。

進一步，本揭示實施例提供的一種語音關鍵字識別裝置還包括：關鍵字範本生成單元。

本揭示實施例提供的關鍵字範本生成單元的一種可選結構，請參見第10圖。如第10圖所示，所述關鍵字範本生成單元包括：第二語音確定單元101，用於確定包括目標關鍵字的第二語音，第二語音由第二幀序列構成。

終層特徵向量確定單元102，用於將第二語音作為預設的語音模型的輸入資訊，確定分別與第二幀序列中的每個幀對應的終層特徵向量。

第二目標幀確定單元103，用於基於分別與每個幀對應的終層特徵向量，從第二幀序列中確定第二目標幀。

關鍵字範本生成子單元104，用於根據將所述第二目標幀作為所述語音模型的輸入資訊所得到的與所述第二目標幀對應的隱層特徵向量，生成與所述目標關鍵字對應的關鍵字範本。

在本揭示實施例中，可選地，所述幀對應的終層特徵向量包括：所述幀分別與所述語音模型中預設的文字集中的每個文字之間的相似度，所述目標關鍵字為所述文字集中的一個文字。所述第二目標幀確定單元具體用於：基於分別與每個幀對應的終層特徵向量，從所述第二幀序列中選取與所述目標關鍵字的相似程度最高的幀作為第二目標幀；幀與所述目標關鍵字的相似程度根據所述幀分別與所述文字集中的每個文字之間的相似度確定。

本揭示實施例提供第二目標幀確定單元的一種可選結構，請參見第11圖。如第11圖所示，所述第二目標幀確定單元包括：第一候選幀確定單元111，用於從第二幀序列中確定至少一個第一候選幀，第一候選幀與目標關鍵字的相似度小於第一候選幀與文字集中的至少一個文字的相似度，所述至少一個文字的個數小於預設數值。

第二候選幀確定單元112，用於從至少一個第一候選幀中確定至少一個第二候選幀，至少一個第二候選幀為至少一個第一候選幀中與目標關鍵字的相似度最大的第一候選幀。

第二目標幀確定子單元113，用於從至少一個第二候選幀中確定第二目標幀，按照相似度從高到低的順序，第二目標幀與目標關鍵字的相似度位於第二目標幀與各文字的相似度中的排名，高於除了第二目標幀以外的每個第二候選幀與目標關鍵字的相似度位於第二候選幀與各文字的相似度中的排名。

本揭示實施例還提供一種電腦可讀儲存介質，其包括指令，當其在電腦上運行時，使得電腦執行如上述任一實施例之方法。

本揭示實施例還提供一種電腦程式產品，其包括指令，當其在電腦上運行時，使得電腦執行如上述任一實施例之方法。

綜上，本揭示實施例公開了一種語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品，包括：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。有效實現了對第一語音中的語音關鍵字的識別。進一步，便於使用語音喚醒技術的電子設備在識別出第一語音中包括語音關鍵字時，自動啟動與所述語音關鍵字相應的處理模組。

本說明書中各個實施例採用漸進的方式描述，每個實施例重點說明的都是與其他實施例的不同之處，各個實施例之間相同相似部分互相參見即可。對於實施例公開的裝置而言，由於其與實施例公開的方法相對應，所以描述的比較簡單，相關之處參見方法部分說明即可。

本揭示所屬技術領域中具有通常知識者還可以進一步意識到，結合本文中所公開的實施例描述的各示例的單元及演算法步驟，能夠以電子硬體、電腦軟體或者二者的結合來實現，為了清楚地說明硬體和軟體的可互換性，在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。上述功能以硬體還是軟體方式來執行取決於技術方案的特定應用和設計條件。本揭示所屬技術領域中具有通常知識者可以對每個特定的應用使用不同方法來實現所描述的功能，但是這種實現不應認為超出本揭示的範圍。

結合本文中所公開的實施例描述的方法或演算法的步驟可以直接用硬體、處理器執行的軟體模組，或者二者的結合來實施。軟體模組可以置於隨機記憶體(RAM)、記憶體、唯讀記憶體(ROM)、電可程式設計ROM、電可擦除可程式設計ROM、寄存器、硬碟、抽取式磁碟、CD-ROM、或技術領域內所習知的任意其它形式的儲存介質中。

雖然本揭示已用較佳實施例揭露如上，然其並非用以限定本揭示，本揭示所屬技術領域中具有通常知識者在不脫離本揭示之精神和範圍內，當可作各種之更動與潤飾，因此本揭示之保護範圍當視後附之申請專利範圍所界定者為準。

S201-S204‧‧‧步驟

Claims

一種語音關鍵字識別方法，包括：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量，所述第二語音由第二幀序列構成，所述第二目標幀是根據與所述第二幀序列中的每個幀對應的終層特徵向量確定；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。
如申請專利範圍第1項所述之方法，若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配失敗，所述方法還包括：返回執行所述從構成第一語音的第一幀序列中選取一個第一目標幀的步驟。
如申請專利範圍第2項所述之方法，其中所述從構成第一語音的第一幀序列中選取一個第一目標幀包括：從所述構成第一語音的第一幀序列中確定第一個從未被確定為第一目標幀的幀；以及將所述第一個從未被確定為所述第一目標幀的幀選取為所述第一目標幀。
如申請專利範圍第1至3項任一項所述之方法，其中所述從關鍵字序列中選取一個關鍵字確定為目標關鍵字包括：從所述語音關鍵字包括的所述關鍵字序列中，確定與最近一次匹配成功的關鍵字範本對應的關鍵字相鄰的下一關鍵字；若所述下一關鍵字被連續確定為目標關鍵字的次數未達到預設的閾值，則將所述下一關鍵字確定為目標關鍵字；以及若所述下一關鍵字被連續確定為目標關鍵字的次數達到所述閾值，則將所述關鍵字序列中的第一個關鍵字確定為目標關鍵字。
如申請專利範圍第1至3項任一項所述之方法，其中所述關鍵字範本的生成過程包括：確定包括所述目標關鍵字的第二語音；將所述第二語音作為預設的語音模型的輸入資訊，確定分別與所述第二幀序列中的每個幀對應的終層特徵向量；根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中確定第二目標幀；以及根據將所述第二目標幀作為所述語音模型的輸入資訊所得到的與所述第二目標幀對應的隱層特徵向量，生成與所述目標關鍵字對應的關鍵字範本。
如申請專利範圍第5項所述之方法，其中所述幀對應的終層特徵向量包括所述幀分別與所述語音模型中預設的文字集中的每個文字之間的相似度，所述目標關鍵字為所述文字集中的一個文字；所述根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中確定第二目標幀包括：根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中選取與所述目標關鍵字的相似程度最高的幀作為第二目標幀，其中幀與所述目標關鍵字的相似程度根據所述幀分別與所述文字集中的每個文字之間的相似度確定。
如申請專利範圍第6項所述之方法，其中所述根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中選取與所述目標關鍵字的相似程度最高的幀作為第二目標幀包括：從所述第二幀序列中確定至少一個第一候選幀，所述第一候選幀與所述目標關鍵字的相似度小於所述第一候選幀與所述文字集中的至少一個文字的相似度，所述至少一個文字的個數小於預設數值；從所述至少一個第一候選幀中確定至少一個第二候選幀，所述至少一個第二候選幀為所述至少一個第一候選幀中與所述目標關鍵字的相似度最大的第一候選幀；以及從所述至少一個第二候選幀中確定第二目標幀，按照相似度從高到低的順序，所述第二目標幀與所述目標關鍵字的相似度位於所述第二目標幀與各文字的相似度中的排名，高於除了所述第二目標幀以外的每個所述第二候選幀與所述目標關鍵字的相似度位於所述第二候選幀與各文字的相似度中的排名。
一種語音關鍵字識別裝置，包括：一第一目標幀確定單元，用於從構成第一語音的第一幀序列中選取一個第一目標幀；一目標關鍵字確定單元，用於從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；一匹配單元，用於若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量，所述第二語音由第二幀序列構成，所述第二目標幀是根據與所述第二幀序列中的每個幀對應的終層特徵向量確定；以及一識別單元，用於若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。
如申請專利範圍第8項所述之裝置，還包括：一返回執行單元，用於若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配失敗，則返回執行所述從構成第一語音的第一幀序列中選取一個第一目標幀。
如申請專利範圍第9項所述之裝置，其中所述第一目標幀確定單元包括：一第一確定單元，用於從所述構成第一語音的第一幀序列中確定第一個從未被確定為第一目標幀的幀；以及一第二確定單元，用於將所述第一個從未被確定為所述第一目標幀的幀選取為所述第一目標幀。
如申請專利範圍第8至10項任一項所述之裝置，其中所述目標關鍵字確定單元包括：一第三確定單元，用於從所述語音關鍵字包括的所述關鍵字序列中，確定與最近一次匹配成功的關鍵字範本對應的關鍵字相鄰的下一關鍵字；一第四確定單元，用於若所述下一關鍵字被連續確定為目標關鍵字的次數未達到預設的閾值，將所述下一關鍵字確定為目標關鍵字；以及一第五確定單元，用於若所述下一關鍵字被連續確定為目標關鍵字的次數達到所述閾值，將所述關鍵字序列中的第一個關鍵字確定為目標關鍵字。
如申請專利範圍第8至10項任一項所述之裝置，還包括一關鍵字範本生成單元，所述關鍵字範本生成單元包括：一第二語音確定單元，用於確定包括所述目標關鍵字的第二語音；一終層特徵向量確定單元，用於將所述第二語音作為預設的語音模型的輸入資訊，確定分別與所述第二幀序列中的每個幀對應的終層特徵向量；一第二目標幀確定單元，用於根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中確定第二目標幀；以及一關鍵字範本生成子單元，用於根據將所述第二目標幀作為所述語音模型的輸入資訊所得到的與所述第二目標幀對應的隱層特徵向量，生成與所述目標關鍵字對應的關鍵字範本。
如申請專利範圍第12項所述之裝置，其中所述幀對應的終層特徵向量包括所述幀分別與所述語音模型中預設的文字集中的每個文字之間的相似度，所述目標關鍵字為所述文字集中的一個文字；所述第二目標幀確定單元具體用於：根據分別與每個幀對應的終層特徵向量，從所述第二幀序列中選取與所述目標關鍵字的相似程度最高的幀作為第二目標幀；其中幀與所述目標關鍵字的相似程度根據所述幀分別與所述文字集中的每個文字之間的相似度確定。
如申請專利範圍第13項所述之裝置，其中所述第二目標幀確定單元包括：一第一候選幀確定單元，用於從所述第二幀序列中確定至少一個第一候選幀，所述第一候選幀與所述目標關鍵字的相似度小於所述第一候選幀與所述文字集中的至少一個文字的相似度，所述至少一個文字的個數小於預設數值；一第二候選幀確定單元，用於從所述至少一個第一候選幀中確定至少一個第二候選幀，所述至少一個第二候選幀為所述至少一個第一候選幀中與所述目標關鍵字的相似度最大的第一候選幀；以及一第二目標幀確定子單元，用於從所述至少一個第二候選幀中確定第二目標幀，按照相似度從高到低的順序，所述第二目標幀與所述目標關鍵字的相似度位於所述第二目標幀與各文字的相似度中的排名，高於除了所述第二目標幀以外的每個所述第二候選幀與所述目標關鍵字的相似度位於所述第二候選幀與各文字的相似度中的排名。
一種終端，包括：至少一記憶體；以及至少一處理器，用於儲存程式；其中所述處理器調用所述程式，所述程式用於：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量，所述第二語音由第二幀序列構成，所述第二目標幀是根據與所述第二幀序列中的每個幀對應的終層特徵向量確定；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。
一種伺服器，包括：至少一記憶體；以及至少一處理器，用於儲存程式；其中所述處理器調用所述程式，所述程式用於：從構成第一語音的第一幀序列中選取一個第一目標幀；從關鍵字序列中選取一個關鍵字確定為目標關鍵字，其中所述關鍵字序列屬於所述語音關鍵字；若所述第一目標幀的隱層特徵向量與所述目標關鍵字對應的關鍵字範本匹配成功，則逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，確定位於所述第一語音中的幀的隱層特徵向量是否匹配，其中所述關鍵字範本指示包括所述目標關鍵字的第二語音中的第二目標幀的隱層特徵向量，所述第二語音由第二幀序列構成，所述第二目標幀是根據與所述第二幀序列中的每個幀對應的終層特徵向量確定；以及若逐一針對關鍵字序列中的每個關鍵字對應的關鍵字範本，均已確定出位於所述第一語音中的幀的隱層特徵向量與其匹配成功，則確定所述第一語音中包括所述語音關鍵字。
一種電腦可讀儲存介質，包括指令，當其在電腦上運行時，使得電腦執行如申請專利範圍第1至7項任一項所述之方法。
一種電腦程式產品，包括指令，當其在電腦上運行時，使得電腦執行如申請專利範圍第1至7項任一項所述之方法。