TWI657342B

TWI657342B - 一種句子相似度判斷方法

Info

Publication number: TWI657342B
Application number: TW107105171A
Authority: TW
Inventors: Lei Shen; 沈磊; Jiansong CHEN; 陳見聳
Original assignee: Yutou Technology (Hangzhou) Co., Ltd.; 大陸商芋頭科技(杭州)有限公司
Priority date: 2017-02-27
Filing date: 2018-02-13
Publication date: 2019-04-21
Also published as: TW201839630A; CN108509408B; CN108509408A; US20200193217A1; US10949709B2; WO2018153217A1

Abstract

本發明公開了一種句子相似度判斷方法，屬於自然語言處理技術領域；方法包括：根據兩個外部輸入的句子樣本，獲取句子樣本中的字詞向量矩陣；提取句子樣本中的重疊特徵以形成重疊特徵矩陣，並將字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據；根據第一神經網路模型處理得到針對句子樣本的句子向量並進行操作形成一句子合併向量，並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據；根據第二神經網路模型處理得到相似性度量並輸出，以作為判斷兩個句子樣本的相似度的依據。上述技術方案的有益效果是：解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量以及未登錄詞的問題。

Description

一種句子相似度判斷方法

本發明涉及自然語言處理技術領域，尤其涉及一種句子相似度判斷方法。

在自然語言處理的技術領域中，對於兩個句子之間判斷相似度的應用非常廣泛。現有技術中通常會採用如圖1所示的以下方法來計算兩個句子之間的相似度：對於句子1和句子2，首先分別獲取兩個句子的字詞向量矩陣並輸入到深度神經網路模型中，通過深度神經網路的處理得到句子向量並進行拼接以作為分類神經網路模型的輸入，最後得到兩個句子的相似性度量。

上述處理方法在計算句子相似度時，由句子中的字詞序列映射形成字詞向量矩陣，其參數一般都會使用由語言模型預訓練形成的字詞向量進行初始化，因此參數質量比較依賴預訓練的字詞向量的質量。並且，若在進行計算時，句子中存在字詞向量詞典中沒有的字或詞（即未登錄詞），則會將其映射成隨機向量進行計算，從而影響模型的度量效果。

根據現有技術中存在的上述問題，現提供一種句子相似度判斷方法的技術方案，旨在解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量和未登錄詞的問題，從而改進計算句子相似度的度量方法。

上述技術方案具體包括：一種句子相似度判斷方法，其中，通過預先訓練形成一句子相似度判斷模型，句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型；句子相似度判斷方法還包括：步驟S1，根據兩個外部輸入的句子樣本，分別獲取每個句子樣本中的字詞向量矩陣；步驟S2, 分別提取每個句子樣本中的重疊特徵以形成重疊特徵矩陣，並針對每個句子樣本將對應的字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據；步驟S3，根據第一神經網路模型分別處理得到針對每個句子樣本的句子向量並進行操作形成一句子合併向量，並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據；步驟S4，根據第二神經網路模型處理得到關聯於兩個句子樣本的相似性度量並輸出，以作為判斷兩個句子樣本的相似度的依據；步驟S3中，採用句子向量直接相減的操作方式形成句子合併向量，或者採用拼接句子向量的操作方式形成句子合併向量。

較佳者，該句子相似度判斷方法，其中，步驟S1中，每個句子樣本的字詞向量矩陣包括：每個句子樣本的字向量矩陣；或者每個句子樣本的詞向量矩陣；則步驟S1中：將句子樣本切分成字序列，並將字序列映射成字向量矩陣；或者將句子樣本切分成詞序列，並將詞序列映射成詞向量矩陣。

較佳者，該該句子相似度判斷方法，其中，步驟S2中，採用下述方式處理形成重疊特徵矩陣：步驟S21，將兩個句子樣本中相互重疊的字或詞分別替換成一第一字符；步驟S22，將兩個句子樣本中不相重疊的字或詞分別替換成一第二字符；步驟S23，根據第一字符和第二字符分別形成關聯於每個句子樣本的重疊特徵序列；步驟S24，將每個重疊特徵序列映射成重疊特徵矩陣；步驟S25，每個字詞向量矩陣和對應的重疊特徵矩陣分別結合作為第一神經網路模型的輸入數據。

較佳者，該句子相似度判斷方法，其中，步驟S3中，處理得到兩個句子向量的相似度乘積，隨後對兩個句子向量做相減操作，並與相似度乘積以及重疊特徵向量結合作為第二神經網路的輸入數據。

較佳者，該句子相似度判斷方法，其中，通過計算兩個句子向量之間的點積得到相似度乘積；或者根據一參數矩陣處理得到相似度乘積；在預先對句子相似度判斷模型進行訓練的過程中，同時訓練得到參數矩陣。

較佳者，該句子相似度判斷方法，其中，第一神經網路模型為深度神經網路模型。

較佳者，該句子相似度判斷方法，其中，第一神經網路模型為卷積神經網路模型或者循環神經網路模型。

較佳者，該句子相似度判斷方法，其中，第二神經網路模型為分類神經網路模型。

上述技術方案的有益效果是：提供一種句子相似度判斷方法，能夠解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量和未登錄詞的問題，從而改進計算句子相似度的度量方法。

以下將結合本發明實施例中的附圖，對本發明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發明一部分實施例，而不是全部的實施例。基於本發明中的實施例，本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例，都屬本發明保護的範圍。

需要說明的是，在不衝突的情況下，本發明中的實施例及實施例中的特徵可以相互組合。

以下結合附圖和具體實施例對本發明作進一步說明，但不作為本發明的限定。

根據現有技術中存在的上述問題，現提供一種句子相似度判斷方法，該判斷方法中，可以通過預先訓練形成一句子相似度判斷模型，句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型。

具體地，上述第一神經網路模型和第二神經網路模型是通過統一訓練一體形成的，即首先搭建包括第一神經網路模型和第二神經網路模型的句子相似度判斷模型（將第一神經網路模型的輸出作為第二神經網路模型的輸入），隨後通過向第一神經網路模型輸入訓練樣本的方式訓練形成整個句子相似度判斷模型。

則該方法具體如圖2所示，包括：步驟S1，根據兩個外部輸入的句子樣本，分別獲取每個句子樣本中的字詞向量矩陣；步驟S2, 分別提取每個句子樣本中的重疊特徵以形成重疊特徵矩陣，並針對每個句子樣本將對應的字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據；步驟S3，根據第一神經網路模型分別處理得到針對每個句子樣本的句子向量並進行操作形成一句子合併向量，並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據；步驟S4，根據第二神經網路模型處理得到關聯於兩個句子樣本的相似性度量並輸出，以作為判斷兩個句子樣本的相似度的依據。

上述步驟S3中，採用句子向量直接相減的操作方式形成句子合併向量，或者採用拼接句子向量的操作方式形成句子合併向量。

具體地，本實施例中，對於兩個給定的句子樣本，首先分別獲取每個句子樣本中的字詞向量矩陣。所謂字詞向量矩陣，是指由句子中的字詞向量映射形成的矩陣。

隨後，本實施例中，獲取每個句子樣本中的重疊特徵以形成重疊特徵矩陣，該重疊特徵為根據兩個句子樣本中相互重疊的字/詞提取到的重疊的字詞特徵，該重疊特徵矩陣為重疊特徵按照上述映射形成字詞向量矩陣相同的映射方法形成的矩陣。

本實施例中，獲取到上述字詞向量矩陣和重疊特徵矩陣後，將關聯於同一個句子樣本的這兩個矩陣結合作為第一神經網路模型的輸入數據，隨後第一神經網路模型通過處理得到針對每個句子樣本的句子向量。

本發明的一個較佳的實施例中，將兩個句子樣本的句子向量進行相減操作，該相減操作的具體方法在下文中詳述。並且，針對上文中得到的重疊特徵形成一重疊特徵向量，與形成的句子合併向量一起結合作為第二神經網路模型的輸入數據。

本發明的另一個較佳的實施例中，將兩個句子樣本的句子向量進行拼接操作，該拼接操作的具體方法與現有技術中相同。並且，針對上文中得到的重疊特徵形成一重疊特徵向量，與形成的句子合併向量一起結合作為第二神經網路模型的輸入數據。

本實施例中，最後通過第二神經網路模型處理得到兩個句子樣本的相似性度量，以作為判斷兩個句子樣本的相似度的依據。

本發明的一個較佳的實施例中，相對于現有技術中對句子相似度的判斷方法（如圖1中所示），在圖3中示出了本發明技術方案中做出改進的部分。主要在於引入了兩個句子的重疊特徵，並且將該重疊特徵進行處理以分別作為第一神經網路模型的輸入數據（重疊特徵矩陣）以及作為第二神經網路模型的輸入數據（重疊特徵向量），因此使得神經網路模型較少依賴預訓練的字詞向量的質量，並且解決了未登錄詞的問題，同時，將現有技術中對句子向量進行拼接的方式更改為既可以拼接也可以相減。上述方法改進了計算句子相似度的模型，最終改進了計算句子相似性的度量方法。

本發明的較佳的實施例中，上述步驟S1中，每個句子樣本的字詞向量矩陣包括：每個句子樣本的字向量矩陣；或者每個句子樣本的詞向量矩陣。即上述字詞向量矩陣包括每個句子樣本的字/詞向量矩陣。

則本實施例中，在上述步驟S1中：將句子樣本切分成字序列，並將字序列映射成字向量矩陣；或者將句子樣本切分成詞序列，並將詞序列映射成詞向量矩陣。

本發明的較佳的實施例中，上述步驟S2中，採用如圖4所示的下述方式處理形成重疊特徵矩陣：步驟S21，將兩個句子樣本中相互重疊的字或詞分別替換成一第一字符；步驟S22，將兩個句子樣本中不相重疊的字或詞分別替換成一第二字符；步驟S23，根據第一字符和第二字符分別形成關聯於每個句子樣本的重疊特徵序列；步驟S24，將每個重疊特徵序列映射成重疊特徵矩陣；步驟S25，每個字詞向量矩陣和對應的重疊特徵矩陣分別結合作為第一神經網路模型的輸入數據。

具體地，本實施例中，上述步驟中，為了方便計算機進行處理，上述第一字符可以為1，第二字符可以為0，則可以形成關聯於每個句子樣本的二進制的重疊特徵向量。例如，對於兩個句子樣本“我要聽歌”和“給我放首歌”，相互重疊的部分（即重疊特徵）分別為“我”和“歌”，則針對“我要聽歌”的重疊特徵序列為1001，針對“給我放首歌”的重疊特徵序列為01001，隨後根據字詞向量映射成字詞向量矩陣的相同方法將上述兩個重疊特徵序列1001和01001分別映射形成重疊特徵矩陣，即字符0映射成一維向量，字符1映射成一維向量，隨後形成矩陣，並將每個句子樣本的字詞向量矩陣和重疊特徵矩陣結合作為第一神經網路模型的輸入數據。

本發明的其他實施例中，上述第一字符和第二字符也可以選擇其他適於處理的形式，在此不再贅述。

本發明的較佳的實施例中，上述步驟S3中，重疊特徵向量的形成方式可以包括如下幾種：（1）以s1表示其中一個句子樣本，s2表示另一個句子樣本，並採用IDF_overlap表示兩個句子樣本中相互重疊的字詞的IDF（Inverse Document Frequency，逆向文檔頻率）之和，採用length表示每個句子樣本的句子長度，則重疊特徵向量feat可以被表示為feat=IDF_overlap/(length(s1)+length(s2))。

上文中，某一個特定字/詞的IDF數，可以由總文件的數目除以包含該字/詞的文件數目，再將得到的商取對數得到。下文中不再贅述。

(2)同樣以s1表示其中一個句子樣本，s2表示另一個句子樣本，並採用IDF_overlap表示兩個句子樣本中相互重疊的字詞的IDF之和，採用IDF_sum表示每個句子樣本中所有字詞的IDF之和，則重疊特徵向量feat可以被表示為feat=IDF_overlap/(IDF_sum(s1)+IDF_sum(s2))。

(3)同樣以s1表示其中一個句子樣本，s2表示另一個句子樣本，並採用length表示每個句子樣本的句子長度，採用word_overlap表示兩個句子樣本中的字重疊數，則上述重疊特徵向量feat可以被表示為feat=word_overlap/(length(s1)+length(s2))。

上述三種方法都能處理得到重疊特徵向量，並直接將重疊特徵向量拼接到第二神經網路模型的輸入數據中。

本發明的一個較佳的實施例中，計算上述重疊特徵向量的時候，也可以先將句子中的停止詞去掉，再計算重疊特徵向量。所謂停止詞（Stop Words），主要包括英文字符、數字、數學字符、標點符號及使用頻率高的單漢字等，在文本處理過程中如果遇到停止詞，則立即停止處理，將其去掉。

本發明的較佳的實施例中，上述步驟S3中，對兩個句子向量執行相減操作能夠更好地找到兩個句子向量之間的差異（如圖3所示）。進一步地，可以採用下述幾種方式實現兩個句子向量的相減操作：（1）直接將兩個句子向量相減得到結果；（2）將兩個句子向量相減，再取絕對值得到結果；（3）上述第一神經網路模型可以為一卷積神經網路模型，卷積神經網路分為卷積層和採樣層（如圖5所示），則可以在卷積層處理之後直接應用上述兩種方式中的一種對兩個向量進行相減，隨後再在採樣層進行採樣，最終得到結果。

本發明的較佳的實施例中，在上述步驟S3中，在採用相減的方式對兩個句子向量進行處理的同時，處理得到兩個句子向量的相似度乘積，並將相似度乘積、句子向量相減的結果以及重疊特徵向量結合作為第二神經網路的輸入數據（如圖3所示）。

具體地，上述相似度乘積可以採用下述幾種方式處理得到：（1）計算兩個句子向量的點積，以作為上述相似度乘積；（2）引入一參數矩陣M，並以x和y分別表示兩個句子向量，則上述相似度乘積可以被表示為x*M*y。

本發明的較佳的實施例中，上述參數矩陣M可以在訓練形成句子相似度判斷模型（即統一訓練形成第一神經網路模型和第二神經網路模型時）時一起訓練形成。

本發明的其他實施例中，上述步驟S3中，可以不對句子向量進行相減操作，而採用與現有技術中類似的句子向量拼接方式對兩個句子向量進行拼接處理，並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據（如圖3中所示，在圖3中，可以選擇採用句子向量拼接或者句子向量相減的方式進行處理）。

本發明的較佳的實施例中，上述第一神經網路模型可以為深度神經網路模型，進一步地可以為卷積神經網路模型（Convolutional Neural Network，CNN），或者為循環神經網路模型（Recurrent Neural Network，RNN），甚至可以為循環神經網路模型的變體，例如長短期記憶神經網路模型（Long Short Term Memory，LSTM）或者門限循環神經網路模型（Gated Recurrent Unit，GRU）。

本發明的較佳的實施例中，上述第二神經網路模型可以為分類神經網路模型，如圖6所示為第二神經網路模型的一般結構，該第二神經網路模型可以被劃分為輸入層、隱層和輸出層，輸出層也就是分類層，上述隱層也可以去除，即只存在輸入層和輸出層（分類層）。

本發明技術方案中提供了一種句子相似度判斷方法，該方法引入了句子向量的重疊特徵並分別作為深度神經網路模型和分類神經網路模型的輸入數據，並且在處理過程中將句子向量的拼接過程更改為對句子向量做相減操作的過程，因此能夠解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量以及未登錄詞的問題，從而改進計算句子相似度的度量方法。

值得注意的是，在不考慮相似性度量的質量比較依賴預訓練的字/詞以及未登錄詞等問題的前提下，本發明技術方案中的一些技術特徵都可以被替代或者被移除，而依然可以作為一個完整的句子相似度判斷方法進行應用。例如：（1）對句子向量進行相減操作的過程可以修改為傳統流程中對句子向量進行拼接的過程，不影響整體判斷流程的進行；（2）在第一神經網路模型的輸入數據中去除由重疊特徵形成的重疊特徵矩陣，而只將重疊特徵形成的重疊特徵向量作為第二神經網路模型的輸入數據，同樣不影響整體判斷流程的進行；（3）在第二神經網路模型的輸入數據中去除由重疊特徵形成的重疊特徵向量，而只將重疊特徵形成的重疊特徵矩陣作為第一神經網路模型的輸入數據，同樣不影響整體判斷流程的進行；（4）去除重疊特徵，只將現有技術中的句子向量拼接的操作修改為句子向量相減，同樣不影響整體判斷流程的進行。

本發明技術方案中提供的句子相似度判斷方法，能夠適用于使用者與智能設備之間進行“聊天”的場景。例如：當使用者向智能設備說一句話時，智能設備通過後台處理給出應答的過程通常為：通過智能設備後臺的備選資料庫檢索得到初步的候選句子集，隨後採用本發明技術方案中提供的句子相似度判斷方法從候選句子集中得到關聯於使用者說的話的相似句子，隨後將該相似句子對應的回答反饋給使用者。

以上僅為本發明較佳的實施例，並非因此限制本發明的實施方式及保護範圍，對於本領域技術人員而言，應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案，均應當包含在本發明的保護範圍內。

S1‧‧‧步驟S1

S2‧‧‧步驟S2

S3‧‧‧步驟S3

S4‧‧‧步驟S4

S21‧‧‧步驟S21

S22‧‧‧步驟S22

S23‧‧‧步驟S23

S24‧‧‧步驟S24

S25‧‧‧步驟S25

圖1是現有技術中，處理得到句子相似度的流程示意圖；圖2-3是本發明的較佳的實施例中，一種句子相似度判斷方法的總體流程示意圖；圖4是本發明的較佳的實施例中，形成重疊特徵矩陣的具體流程示意圖；圖5是本發明的一個較佳的實施例中，第一神經網路模型的結構示意圖；圖6是本發明的一個較佳的實施例中，第二神經網路模型的結構示意圖。。

Claims

一種句子相似度判斷方法，其中，通過預先訓練形成一句子相似度判斷模型，該句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型；該句子相似度判斷方法還包括：步驟S1，根據兩個外部輸入的句子樣本，分別獲取每個該句子樣本中的字詞向量矩陣；步驟S2, 分別提取每個該句子樣本中的重疊特徵以形成重疊特徵矩陣，並針對每個該句子樣本將對應的該字詞向量矩陣與該重疊特徵矩陣結合作為該第一神經網路模型的輸入數據；步驟S3，根據該第一神經網路模型分別處理得到針對每個該句子樣本的該句子向量並進行操作形成一句子合併向量，並與根據該重疊特徵形成的重疊特徵向量結合作為該第二神經網路模型的輸入數據；步驟S4，根據該第二神經網路模型處理得到關聯於兩個該句子樣本的相似性度量並輸出，以作為判斷兩個該句子樣本的相似度的依據；該步驟S3中，採用該句子向量直接相減的操作方式形成該句子合併向量，或者採用拼接該句子向量的操作方式形成該句子合併向量。
如請求項1所述之句子相似度判斷方法，其中，該步驟S1中，每個該句子樣本的字詞向量矩陣包括：每個該句子樣本的字向量矩陣；或者每個該句子樣本的詞向量矩陣；則該步驟S1中：將該句子樣本切分成字序列，並將該字序列映射成該字向量矩陣；或者將該句子樣本切分成詞序列，並將該詞序列映射成該詞向量矩陣。
如請求項1所述之句子相似度判斷方法，其中，該步驟S2中，採用下述方式處理形成該重疊特徵矩陣：步驟S21，將該兩個該句子樣本中相互重疊的字或詞分別替換成一第一字符；步驟S22，將該兩個句子樣本中不相重疊的字或詞分別替換成一第二字符；步驟S23，根據該第一字符和該第二字符分別形成關聯於每個該句子樣本的重疊特徵序列；步驟S24，將每個該重疊特徵序列映射成該重疊特徵矩陣；步驟S25，每個該字詞向量矩陣和對應的該重疊特徵矩陣分別結合作為該第一神經網路模型的該輸入數據。
如請求項1所述之句子相似度判斷方法，其中，該步驟S3中，處理得到兩個該句子向量的相似度乘積，隨後對兩個該句子向量做相減操作，並與該相似度乘積以及該重疊特徵向量結合作為該第二神經網路的該輸入數據。
如請求項4所述之句子相似度判斷方法，其中，通過計算兩個該句子向量之間的點積得到該相似度乘積；或者根據一參數矩陣處理得到該相似度乘積；在預先對該句子相似度判斷模型進行訓練的過程中，同時訓練得到該參數矩陣。
如請求項1所述之句子相似度判斷方法，其中，該第一神經網路模型為深度神經網路模型。
如請求項1所述之句子相似度判斷方法，其中，該第一神經網路模型為卷積神經網路模型或者循環神經網路模型。
如請求項1所述之句子相似度判斷方法，其中，該第二神經網路模型為分類神經網路模型。