TWI657342B - 一種句子相似度判斷方法 - Google Patents
一種句子相似度判斷方法 Download PDFInfo
- Publication number
- TWI657342B TWI657342B TW107105171A TW107105171A TWI657342B TW I657342 B TWI657342 B TW I657342B TW 107105171 A TW107105171 A TW 107105171A TW 107105171 A TW107105171 A TW 107105171A TW I657342 B TWI657342 B TW I657342B
- Authority
- TW
- Taiwan
- Prior art keywords
- sentence
- neural network
- similarity
- network model
- vector
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Medical Informatics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本發明公開了一種句子相似度判斷方法,屬於自然語言處理技術領域;方法包括:根據兩個外部輸入的句子樣本,獲取句子樣本中的字詞向量矩陣;提取句子樣本中的重疊特徵以形成重疊特徵矩陣,並將字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據;根據第一神經網路模型處理得到針對句子樣本的句子向量並進行操作形成一句子合併向量,並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據;根據第二神經網路模型處理得到相似性度量並輸出,以作為判斷兩個句子樣本的相似度的依據。上述技術方案的有益效果是:解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量以及未登錄詞的問題。
Description
本發明涉及自然語言處理技術領域,尤其涉及一種句子相似度判斷方法。
在自然語言處理的技術領域中,對於兩個句子之間判斷相似度的應用非常廣泛。現有技術中通常會採用如圖1所示的以下方法來計算兩個句子之間的相似度: 對於句子1和句子2,首先分別獲取兩個句子的字詞向量矩陣並輸入到深度神經網路模型中,通過深度神經網路的處理得到句子向量並進行拼接以作為分類神經網路模型的輸入,最後得到兩個句子的相似性度量。
上述處理方法在計算句子相似度時,由句子中的字詞序列映射形成字詞向量矩陣,其參數一般都會使用由語言模型預訓練形成的字詞向量進行初始化,因此參數質量比較依賴預訓練的字詞向量的質量。並且,若在進行計算時,句子中存在字詞向量詞典中沒有的字或詞(即未登錄詞),則會將其映射成隨機向量進行計算,從而影響模型的度量效果。
根據現有技術中存在的上述問題,現提供一種句子相似度判斷方法的技術方案,旨在解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量和未登錄詞的問題,從而改進計算句子相似度的度量方法。
上述技術方案具體包括: 一種句子相似度判斷方法,其中,通過預先訓練形成一句子相似度判斷模型,句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型; 句子相似度判斷方法還包括: 步驟S1,根據兩個外部輸入的句子樣本,分別獲取每個句子樣本中的字詞向量矩陣; 步驟S2, 分別提取每個句子樣本中的重疊特徵以形成重疊特徵矩陣,並針對每個句子樣本將對應的字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據; 步驟S3,根據第一神經網路模型分別處理得到針對每個句子樣本的句子向量並進行操作形成一句子合併向量,並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據; 步驟S4,根據第二神經網路模型處理得到關聯於兩個句子樣本的相似性度量並輸出,以作為判斷兩個句子樣本的相似度的依據; 步驟S3中,採用句子向量直接相減的操作方式形成句子合併向量,或者採用拼接句子向量的操作方式形成句子合併向量。
較佳者,該句子相似度判斷方法,其中,步驟S1中,每個句子樣本的字詞向量矩陣包括: 每個句子樣本的字向量矩陣;或者 每個句子樣本的詞向量矩陣; 則步驟S1中: 將句子樣本切分成字序列,並將字序列映射成字向量矩陣;或者 將句子樣本切分成詞序列,並將詞序列映射成詞向量矩陣。
較佳者,該該句子相似度判斷方法,其中,步驟S2中,採用下述方式處理形成重疊特徵矩陣: 步驟S21,將兩個句子樣本中相互重疊的字或詞分別替換成一第一字符; 步驟S22,將兩個句子樣本中不相重疊的字或詞分別替換成一第二字符; 步驟S23,根據第一字符和第二字符分別形成關聯於每個句子樣本的重疊特徵序列; 步驟S24,將每個重疊特徵序列映射成重疊特徵矩陣; 步驟S25,每個字詞向量矩陣和對應的重疊特徵矩陣分別結合作為第一神經網路模型的輸入數據。
較佳者,該句子相似度判斷方法,其中,步驟S3中,處理得到兩個句子向量的相似度乘積,隨後對兩個句子向量做相減操作,並與相似度乘積以及重疊特徵向量結合作為第二神經網路的輸入數據。
較佳者,該句子相似度判斷方法,其中,通過計算兩個句子向量之間的點積得到相似度乘積;或者 根據一參數矩陣處理得到相似度乘積; 在預先對句子相似度判斷模型進行訓練的過程中,同時訓練得到參數矩陣。
較佳者,該句子相似度判斷方法,其中,第一神經網路模型為深度神經網路模型。
較佳者,該句子相似度判斷方法,其中,第一神經網路模型為卷積神經網路模型或者循環神經網路模型。
較佳者,該句子相似度判斷方法,其中,第二神經網路模型為分類神經網路模型。
上述技術方案的有益效果是:提供一種句子相似度判斷方法,能夠解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量和未登錄詞的問題,從而改進計算句子相似度的度量方法。
以下將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基於本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動的前提下所獲得的所有其他實施例,都屬本發明保護的範圍。
需要說明的是,在不衝突的情況下,本發明中的實施例及實施例中的特徵可以相互組合。
以下結合附圖和具體實施例對本發明作進一步說明,但不作為本發明的限定。
根據現有技術中存在的上述問題,現提供一種句子相似度判斷方法,該判斷方法中,可以通過預先訓練形成一句子相似度判斷模型,句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型。
具體地,上述第一神經網路模型和第二神經網路模型是通過統一訓練一體形成的,即首先搭建包括第一神經網路模型和第二神經網路模型的句子相似度判斷模型(將第一神經網路模型的輸出作為第二神經網路模型的輸入),隨後通過向第一神經網路模型輸入訓練樣本的方式訓練形成整個句子相似度判斷模型。
則該方法具體如圖2所示,包括: 步驟S1,根據兩個外部輸入的句子樣本,分別獲取每個句子樣本中的字詞向量矩陣; 步驟S2, 分別提取每個句子樣本中的重疊特徵以形成重疊特徵矩陣,並針對每個句子樣本將對應的字詞向量矩陣與重疊特徵矩陣結合作為第一神經網路模型的輸入數據; 步驟S3,根據第一神經網路模型分別處理得到針對每個句子樣本的句子向量並進行操作形成一句子合併向量,並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據; 步驟S4,根據第二神經網路模型處理得到關聯於兩個句子樣本的相似性度量並輸出,以作為判斷兩個句子樣本的相似度的依據。
上述步驟S3中,採用句子向量直接相減的操作方式形成句子合併向量,或者採用拼接句子向量的操作方式形成句子合併向量。
具體地,本實施例中,對於兩個給定的句子樣本,首先分別獲取每個句子樣本中的字詞向量矩陣。所謂字詞向量矩陣,是指由句子中的字詞向量映射形成的矩陣。
隨後,本實施例中,獲取每個句子樣本中的重疊特徵以形成重疊特徵矩陣,該重疊特徵為根據兩個句子樣本中相互重疊的字/詞提取到的重疊的字詞特徵,該重疊特徵矩陣為重疊特徵按照上述映射形成字詞向量矩陣相同的映射方法形成的矩陣。
本實施例中,獲取到上述字詞向量矩陣和重疊特徵矩陣後,將關聯於同一個句子樣本的這兩個矩陣結合作為第一神經網路模型的輸入數據,隨後第一神經網路模型通過處理得到針對每個句子樣本的句子向量。
本發明的一個較佳的實施例中,將兩個句子樣本的句子向量進行相減操作,該相減操作的具體方法在下文中詳述。並且,針對上文中得到的重疊特徵形成一重疊特徵向量,與形成的句子合併向量一起結合作為第二神經網路模型的輸入數據。
本發明的另一個較佳的實施例中,將兩個句子樣本的句子向量進行拼接操作,該拼接操作的具體方法與現有技術中相同。並且,針對上文中得到的重疊特徵形成一重疊特徵向量,與形成的句子合併向量一起結合作為第二神經網路模型的輸入數據。
本實施例中,最後通過第二神經網路模型處理得到兩個句子樣本的相似性度量,以作為判斷兩個句子樣本的相似度的依據。
本發明的一個較佳的實施例中,相對于現有技術中對句子相似度的判斷方法(如圖1中所示),在圖3中示出了本發明技術方案中做出改進的部分。主要在於引入了兩個句子的重疊特徵,並且將該重疊特徵進行處理以分別作為第一神經網路模型的輸入數據(重疊特徵矩陣)以及作為第二神經網路模型的輸入數據(重疊特徵向量),因此使得神經網路模型較少依賴預訓練的字詞向量的質量,並且解決了未登錄詞的問題,同時,將現有技術中對句子向量進行拼接的方式更改為既可以拼接也可以相減。上述方法改進了計算句子相似度的模型,最終改進了計算句子相似性的度量方法。
本發明的較佳的實施例中,上述步驟S1中,每個句子樣本的字詞向量矩陣包括: 每個句子樣本的字向量矩陣;或者 每個句子樣本的詞向量矩陣。 即上述字詞向量矩陣包括每個句子樣本的字/詞向量矩陣。
則本實施例中,在上述步驟S1中: 將句子樣本切分成字序列,並將字序列映射成字向量矩陣;或者 將句子樣本切分成詞序列,並將詞序列映射成詞向量矩陣。
本發明的較佳的實施例中,上述步驟S2中,採用如圖4所示的下述方式處理形成重疊特徵矩陣: 步驟S21,將兩個句子樣本中相互重疊的字或詞分別替換成一第一字符; 步驟S22,將兩個句子樣本中不相重疊的字或詞分別替換成一第二字符; 步驟S23,根據第一字符和第二字符分別形成關聯於每個句子樣本的重疊特徵序列; 步驟S24,將每個重疊特徵序列映射成重疊特徵矩陣; 步驟S25,每個字詞向量矩陣和對應的重疊特徵矩陣分別結合作為第一神經網路模型的輸入數據。
具體地,本實施例中,上述步驟中,為了方便計算機進行處理,上述第一字符可以為1,第二字符可以為0,則可以形成關聯於每個句子樣本的二進制的重疊特徵向量。例如,對於兩個句子樣本“我要聽歌”和“給我放首歌”,相互重疊的部分(即重疊特徵)分別為“我”和“歌”,則針對“我要聽歌”的重疊特徵序列為1001,針對“給我放首歌”的重疊特徵序列為01001,隨後根據字詞向量映射成字詞向量矩陣的相同方法將上述兩個重疊特徵序列1001和01001分別映射形成重疊特徵矩陣,即字符0映射成一維向量,字符1映射成一維向量,隨後形成矩陣,並將每個句子樣本的字詞向量矩陣和重疊特徵矩陣結合作為第一神經網路模型的輸入數據。
本發明的其他實施例中,上述第一字符和第二字符也可以選擇其他適於處理的形式,在此不再贅述。
本發明的較佳的實施例中,上述步驟S3中,重疊特徵向量的形成方式可以包括如下幾種: (1)以s1表示其中一個句子樣本,s2表示另一個句子樣本,並採用IDF_overlap表示兩個句子樣本中相互重疊的字詞的IDF(Inverse Document Frequency,逆向文檔頻率)之和,採用length表示每個句子樣本的句子長度,則重疊特徵向量feat可以被表示為feat=IDF_overlap/(length(s1)+length(s2))。
上文中,某一個特定字/詞的IDF數,可以由總文件的數目除以包含該字/詞的文件數目,再將得到的商取對數得到。下文中不再贅述。
(2)同樣以s1表示其中一個句子樣本,s2表示另一個句子樣本,並採用IDF_overlap表示兩個句子樣本中相互重疊的字詞的IDF之和,採用IDF_sum表示每個句子樣本中所有字詞的IDF之和,則重疊特徵向量feat可以被表示為feat=IDF_overlap/(IDF_sum(s1)+IDF_sum(s2))。
(3)同樣以s1表示其中一個句子樣本,s2表示另一個句子樣本,並採用length表示每個句子樣本的句子長度,採用word_overlap表示兩個句子樣本中的字重疊數,則上述重疊特徵向量feat可以被表示為feat=word_overlap/(length(s1)+length(s2))。
上述三種方法都能處理得到重疊特徵向量,並直接將重疊特徵向量拼接到第二神經網路模型的輸入數據中。
本發明的一個較佳的實施例中,計算上述重疊特徵向量的時候,也可以先將句子中的停止詞去掉,再計算重疊特徵向量。所謂停止詞(Stop Words),主要包括英文字符、數字、數學字符、標點符號及使用頻率高的單漢字等,在文本處理過程中如果遇到停止詞,則立即停止處理,將其去掉。
本發明的較佳的實施例中,上述步驟S3中,對兩個句子向量執行相減操作能夠更好地找到兩個句子向量之間的差異(如圖3所示)。進一步地,可以採用下述幾種方式實現兩個句子向量的相減操作: (1)直接將兩個句子向量相減得到結果; (2)將兩個句子向量相減,再取絕對值得到結果; (3)上述第一神經網路模型可以為一卷積神經網路模型,卷積神經網路分為卷積層和採樣層(如圖5所示),則可以在卷積層處理之後直接應用上述兩種方式中的一種對兩個向量進行相減,隨後再在採樣層進行採樣,最終得到結果。
本發明的較佳的實施例中,在上述步驟S3中,在採用相減的方式對兩個句子向量進行處理的同時,處理得到兩個句子向量的相似度乘積,並將相似度乘積、句子向量相減的結果以及重疊特徵向量結合作為第二神經網路的輸入數據(如圖3所示)。
具體地,上述相似度乘積可以採用下述幾種方式處理得到: (1)計算兩個句子向量的點積,以作為上述相似度乘積; (2)引入一參數矩陣M,並以x和y分別表示兩個句子向量,則上述相似度乘積可以被表示為x*M*y。
本發明的較佳的實施例中,上述參數矩陣M可以在訓練形成句子相似度判斷模型(即統一訓練形成第一神經網路模型和第二神經網路模型時)時一起訓練形成。
本發明的其他實施例中,上述步驟S3中,可以不對句子向量進行相減操作,而採用與現有技術中類似的句子向量拼接方式對兩個句子向量進行拼接處理,並與根據重疊特徵形成的重疊特徵向量結合作為第二神經網路模型的輸入數據(如圖3中所示,在圖3中,可以選擇採用句子向量拼接或者句子向量相減的方式進行處理)。
本發明的較佳的實施例中,上述第一神經網路模型可以為深度神經網路模型,進一步地可以為卷積神經網路模型(Convolutional Neural Network,CNN),或者為循環神經網路模型(Recurrent Neural Network,RNN),甚至可以為循環神經網路模型的變體,例如長短期記憶神經網路模型(Long Short Term Memory,LSTM)或者門限循環神經網路模型(Gated Recurrent Unit,GRU)。
本發明的較佳的實施例中,上述第二神經網路模型可以為分類神經網路模型,如圖6所示為第二神經網路模型的一般結構,該第二神經網路模型可以被劃分為輸入層、隱層和輸出層,輸出層也就是分類層,上述隱層也可以去除,即只存在輸入層和輸出層(分類層)。
本發明技術方案中提供了一種句子相似度判斷方法,該方法引入了句子向量的重疊特徵並分別作為深度神經網路模型和分類神經網路模型的輸入數據,並且在處理過程中將句子向量的拼接過程更改為對句子向量做相減操作的過程,因此能夠解決現有技術中計算句子相似度比較依賴預訓練的字/詞向量的質量以及未登錄詞的問題,從而改進計算句子相似度的度量方法。
值得注意的是,在不考慮相似性度量的質量比較依賴預訓練的字/詞以及未登錄詞等問題的前提下,本發明技術方案中的一些技術特徵都可以被替代或者被移除,而依然可以作為一個完整的句子相似度判斷方法進行應用。例如: (1)對句子向量進行相減操作的過程可以修改為傳統流程中對句子向量進行拼接的過程,不影響整體判斷流程的進行; (2)在第一神經網路模型的輸入數據中去除由重疊特徵形成的重疊特徵矩陣,而只將重疊特徵形成的重疊特徵向量作為第二神經網路模型的輸入數據,同樣不影響整體判斷流程的進行; (3)在第二神經網路模型的輸入數據中去除由重疊特徵形成的重疊特徵向量,而只將重疊特徵形成的重疊特徵矩陣作為第一神經網路模型的輸入數據,同樣不影響整體判斷流程的進行; (4) 去除重疊特徵,只將現有技術中的句子向量拼接的操作修改為句子向量相減,同樣不影響整體判斷流程的進行。
本發明技術方案中提供的句子相似度判斷方法,能夠適用于使用者與智能設備之間進行“聊天”的場景。例如:當使用者向智能設備說一句話時,智能設備通過後台處理給出應答的過程通常為:通過智能設備後臺的備選資料庫檢索得到初步的候選句子集,隨後採用本發明技術方案中提供的句子相似度判斷方法從候選句子集中得到關聯於使用者說的話的相似句子,隨後將該相似句子對應的回答反饋給使用者。
以上僅為本發明較佳的實施例,並非因此限制本發明的實施方式及保護範圍,對於本領域技術人員而言,應當能夠意識到凡運用本發明說明書及圖示內容所作出的等同替換和顯而易見的變化所得到的方案,均應當包含在本發明的保護範圍內。
S1‧‧‧步驟S1
S2‧‧‧步驟S2
S3‧‧‧步驟S3
S4‧‧‧步驟S4
S21‧‧‧步驟S21
S22‧‧‧步驟S22
S23‧‧‧步驟S23
S24‧‧‧步驟S24
S25‧‧‧步驟S25
圖1是現有技術中,處理得到句子相似度的流程示意圖; 圖2-3是本發明的較佳的實施例中,一種句子相似度判斷方法的總體流程示意圖; 圖4是本發明的較佳的實施例中,形成重疊特徵矩陣的具體流程示意圖; 圖5是本發明的一個較佳的實施例中,第一神經網路模型的結構示意圖; 圖6是本發明的一個較佳的實施例中,第二神經網路模型的結構示意圖。。
Claims (8)
- 一種句子相似度判斷方法,其中,通過預先訓練形成一句子相似度判斷模型,該句子相似度判斷模型中包括一用於處理得到句子向量的第一神經網路模型以及一用於處理得到表示句子相似度的相似性度量的第二神經網路模型; 該句子相似度判斷方法還包括: 步驟S1,根據兩個外部輸入的句子樣本,分別獲取每個該句子樣本中的字詞向量矩陣; 步驟S2, 分別提取每個該句子樣本中的重疊特徵以形成重疊特徵矩陣,並針對每個該句子樣本將對應的該字詞向量矩陣與該重疊特徵矩陣結合作為該第一神經網路模型的輸入數據; 步驟S3,根據該第一神經網路模型分別處理得到針對每個該句子樣本的該句子向量並進行操作形成一句子合併向量,並與根據該重疊特徵形成的重疊特徵向量結合作為該第二神經網路模型的輸入數據; 步驟S4,根據該第二神經網路模型處理得到關聯於兩個該句子樣本的相似性度量並輸出,以作為判斷兩個該句子樣本的相似度的依據; 該步驟S3中,採用該句子向量直接相減的操作方式形成該句子合併向量,或者採用拼接該句子向量的操作方式形成該句子合併向量。
- 如請求項1所述之句子相似度判斷方法,其中,該步驟S1中,每個該句子樣本的字詞向量矩陣包括: 每個該句子樣本的字向量矩陣;或者 每個該句子樣本的詞向量矩陣; 則該步驟S1中: 將該句子樣本切分成字序列,並將該字序列映射成該字向量矩陣;或者 將該句子樣本切分成詞序列,並將該詞序列映射成該詞向量矩陣。
- 如請求項1所述之句子相似度判斷方法,其中,該步驟S2中,採用下述方式處理形成該重疊特徵矩陣: 步驟S21,將該兩個該句子樣本中相互重疊的字或詞分別替換成一第一字符; 步驟S22,將該兩個句子樣本中不相重疊的字或詞分別替換成一第二字符; 步驟S23,根據該第一字符和該第二字符分別形成關聯於每個該句子樣本的重疊特徵序列; 步驟S24,將每個該重疊特徵序列映射成該重疊特徵矩陣; 步驟S25,每個該字詞向量矩陣和對應的該重疊特徵矩陣分別結合作為該第一神經網路模型的該輸入數據。
- 如請求項1所述之句子相似度判斷方法,其中,該步驟S3中,處理得到兩個該句子向量的相似度乘積,隨後對兩個該句子向量做相減操作,並與該相似度乘積以及該重疊特徵向量結合作為該第二神經網路的該輸入數據。
- 如請求項4所述之句子相似度判斷方法,其中,通過計算兩個該句子向量之間的點積得到該相似度乘積;或者 根據一參數矩陣處理得到該相似度乘積; 在預先對該句子相似度判斷模型進行訓練的過程中,同時訓練得到該參數矩陣。
- 如請求項1所述之句子相似度判斷方法,其中,該第一神經網路模型為深度神經網路模型。
- 如請求項1所述之句子相似度判斷方法,其中,該第一神經網路模型為卷積神經網路模型或者循環神經網路模型。
- 如請求項1所述之句子相似度判斷方法,其中,該第二神經網路模型為分類神經網路模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
??201710109324.2 | 2017-02-27 | ||
CN201710109324.2A CN108509408B (zh) | 2017-02-27 | 2017-02-27 | 一种句子相似度判断方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201839630A TW201839630A (zh) | 2018-11-01 |
TWI657342B true TWI657342B (zh) | 2019-04-21 |
Family
ID=63252399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW107105171A TWI657342B (zh) | 2017-02-27 | 2018-02-13 | 一種句子相似度判斷方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10949709B2 (zh) |
CN (1) | CN108509408B (zh) |
TW (1) | TWI657342B (zh) |
WO (1) | WO2018153217A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI745724B (zh) * | 2019-07-25 | 2021-11-11 | 國泰人壽保險股份有限公司 | 行動文件辨識系統 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509408B (zh) * | 2017-02-27 | 2019-11-22 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
CN108287858B (zh) * | 2017-03-02 | 2021-08-10 | 腾讯科技(深圳)有限公司 | 自然语言的语义提取方法及装置 |
CN109522921A (zh) * | 2018-09-18 | 2019-03-26 | 义语智能科技(上海)有限公司 | 语句相似度判别方法及设备 |
CN109614485B (zh) * | 2018-11-19 | 2023-03-14 | 中山大学 | 一种基于语法结构的分层Attention的句子匹配方法及装置 |
CN109740728B (zh) * | 2018-12-10 | 2019-11-01 | 杭州世平信息科技有限公司 | 一种基于多种神经网络组合的量刑计算方法 |
CN109766547B (zh) * | 2018-12-26 | 2022-10-18 | 重庆邮电大学 | 一种句子相似度计算方法 |
CN111400462A (zh) * | 2019-01-02 | 2020-07-10 | 珠海格力电器股份有限公司 | 问答机器人训练方法、***及问答机器人 |
CN109740126B (zh) * | 2019-01-04 | 2023-11-21 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN111489754B (zh) * | 2019-01-28 | 2024-06-25 | 国家电网有限公司客户服务中心 | 一种基于智能语音技术的话务数据分析方法 |
CN109992659B (zh) * | 2019-02-12 | 2023-02-17 | 创新先进技术有限公司 | 用于文本排序的方法和装置 |
CN111666482B (zh) * | 2019-03-06 | 2022-08-02 | 珠海格力电器股份有限公司 | 查询方法及装置、存储介质和处理器 |
US10949456B2 (en) * | 2019-03-29 | 2021-03-16 | Knowtions Research Inc. | Method and system for mapping text phrases to a taxonomy |
CN110287312B (zh) * | 2019-05-10 | 2023-08-25 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、计算机设备及计算机存储介质 |
CN110298035B (zh) * | 2019-06-04 | 2023-12-01 | 平安科技(深圳)有限公司 | 基于人工智能的字向量定义方法、装置、设备及存储介质 |
CN110362681B (zh) * | 2019-06-19 | 2023-09-22 | 平安科技(深圳)有限公司 | 问答***重复问题识别方法、装置及存储介质 |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
KR102098734B1 (ko) * | 2019-08-06 | 2020-04-08 | 전자부품연구원 | 대화 상대의 외형을 반영한 수어 영상 제공 방법, 장치 및 단말 |
CN110689023B (zh) * | 2019-08-15 | 2024-01-16 | 平安科技(深圳)有限公司 | 可靠组合特征提取方法、装置、计算机设备及存储介质 |
CN110750977B (zh) * | 2019-10-23 | 2023-06-02 | 支付宝(杭州)信息技术有限公司 | 一种文本相似度计算方法及*** |
CN111666755A (zh) * | 2020-06-24 | 2020-09-15 | 深圳前海微众银行股份有限公司 | 一种复述句识别的方法及装置 |
CN111737991B (zh) * | 2020-07-01 | 2023-12-12 | 携程计算机技术(上海)有限公司 | 文本断句位置的识别方法及***、电子设备及存储介质 |
CN111814717B (zh) * | 2020-07-17 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 人脸识别方法、装置及电子设备 |
CN111783458B (zh) * | 2020-08-20 | 2024-05-03 | 支付宝(杭州)信息技术有限公司 | 叠字错误检测方法及装置 |
CN113468872B (zh) * | 2021-06-09 | 2024-04-16 | 大连理工大学 | 基于句子级别图卷积的生物医学关系抽取方法及*** |
CN113378970B (zh) * | 2021-06-28 | 2023-08-22 | 山东浪潮成方数字服务有限公司 | 语句相似性检测方法、装置、电子设备及存储介质 |
CN113688571B (zh) * | 2021-08-25 | 2023-06-30 | 哈尔滨工程大学 | 一种基于卷积相似度的水声环境参数分类方法 |
CN115017915B (zh) * | 2022-05-30 | 2023-05-30 | 北京三快在线科技有限公司 | 一种模型训练、任务执行的方法及装置 |
CN115114932B (zh) * | 2022-06-24 | 2024-06-28 | 重庆邮电大学 | 一种基于关键词的多粒度中文短文本匹配方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答*** |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
TWI532035B (zh) * | 2013-10-18 | 2016-05-01 | 威盛電子股份有限公司 | 語言模型的建立方法、語音辨識方法及電子裝置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6137911A (en) * | 1997-06-16 | 2000-10-24 | The Dialog Corporation Plc | Test classification system and method |
JP3099797B2 (ja) * | 1998-03-19 | 2000-10-16 | 日本電気株式会社 | 文字認識装置 |
FR2825814B1 (fr) * | 2001-06-07 | 2003-09-19 | Commissariat Energie Atomique | Procede de creation automatique d'une base de donnees images interrogeable par son contenu semantique |
EP1668541A1 (en) * | 2003-09-30 | 2006-06-14 | British Telecommunications Public Limited Company | Information retrieval |
US8176054B2 (en) * | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US7646940B2 (en) * | 2006-04-04 | 2010-01-12 | Microsoft Corporation | Robust indexing and retrieval of electronic ink |
TWI396184B (zh) * | 2009-09-17 | 2013-05-11 | Tze Fen Li | 一種語音辨認所有語言及用語音輸入單字的方法 |
US9607245B2 (en) * | 2014-12-02 | 2017-03-28 | Xerox Corporation | Adapted vocabularies for matching image signatures with fisher vectors |
CN105183714A (zh) * | 2015-08-27 | 2015-12-23 | 北京时代焦点国际教育咨询有限责任公司 | 句子相似度计算方法及装置 |
CN106445920A (zh) * | 2016-09-29 | 2017-02-22 | 北京理工大学 | 利用句义结构特征的句子相似度计算方法 |
CN108509408B (zh) * | 2017-02-27 | 2019-11-22 | 芋头科技(杭州)有限公司 | 一种句子相似度判断方法 |
US10665122B1 (en) * | 2017-06-09 | 2020-05-26 | Act, Inc. | Application of semantic vectors in automated scoring of examination responses |
CN107491547B (zh) * | 2017-08-28 | 2020-11-10 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
US10437936B2 (en) * | 2018-02-01 | 2019-10-08 | Jungle Disk, L.L.C. | Generative text using a personality model |
-
2017
- 2017-02-27 CN CN201710109324.2A patent/CN108509408B/zh active Active
-
2018
- 2018-01-26 US US16/488,572 patent/US10949709B2/en active Active
- 2018-01-26 WO PCT/CN2018/074336 patent/WO2018153217A1/zh active Application Filing
- 2018-02-13 TW TW107105171A patent/TWI657342B/zh active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6026398A (en) * | 1997-10-16 | 2000-02-15 | Imarket, Incorporated | System and methods for searching and matching databases |
US6810376B1 (en) * | 2000-07-11 | 2004-10-26 | Nusuara Technologies Sdn Bhd | System and methods for determining semantic similarity of sentences |
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答*** |
TWI532035B (zh) * | 2013-10-18 | 2016-05-01 | 威盛電子股份有限公司 | 語言模型的建立方法、語音辨識方法及電子裝置 |
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI745724B (zh) * | 2019-07-25 | 2021-11-11 | 國泰人壽保險股份有限公司 | 行動文件辨識系統 |
Also Published As
Publication number | Publication date |
---|---|
TW201839630A (zh) | 2018-11-01 |
CN108509408B (zh) | 2019-11-22 |
CN108509408A (zh) | 2018-09-07 |
US20200193217A1 (en) | 2020-06-18 |
US10949709B2 (en) | 2021-03-16 |
WO2018153217A1 (zh) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI657342B (zh) | 一種句子相似度判斷方法 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、***、设备及介质 | |
JP6956177B2 (ja) | キーワード抽出方法、コンピュータ装置及び記憶媒体 | |
TWI638274B (zh) | 一種語義匹配方法及智能設備 | |
CN111709243B (zh) | 一种基于深度学习的知识抽取方法与装置 | |
WO2017133165A1 (zh) | 一种满意度自动测评的方法、装置、设备和计算机存储介质 | |
CN111241294A (zh) | 基于依赖解析和关键词的图卷积网络的关系抽取方法 | |
WO2021204014A1 (zh) | 一种模型训练的方法及相关装置 | |
CN107729392A (zh) | 文本结构化方法、装置、***和非易失性存储介质 | |
WO2020133039A1 (zh) | 对话语料中实体的识别方法、装置和计算机设备 | |
WO2018166115A1 (zh) | 客服问答数据的处理方法、电子装置及计算机可读存储介质 | |
CN107273348B (zh) | 一种文本的话题和情感联合检测方法及装置 | |
CN108959474B (zh) | 实体关系提取方法 | |
US20230076658A1 (en) | Method, apparatus, computer device and storage medium for decoding speech data | |
WO2020052069A1 (zh) | 用于分词的方法和装置 | |
CN111694940A (zh) | 一种用户报告的生成方法及终端设备 | |
CN107515856A (zh) | 一种基于局部信息表示的细粒度情感元素抽取方法 | |
US11417339B1 (en) | Detection of plagiarized spoken responses using machine learning | |
CN110532575A (zh) | 文本翻译方法及装置 | |
CN106776557B (zh) | 情感机器人的情感状态记忆识别方法及装置 | |
CN116483979A (zh) | 基于人工智能的对话模型训练方法、装置、设备及介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN110610006A (zh) | 基于笔画和字形的形态学双通道中文词嵌入方法 | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
CN108090039A (zh) | 一种人名识别方法和装置 |