TW202030623A - 一種跨模態訊息檢索方法、裝置和儲存介質 - Google Patents

一種跨模態訊息檢索方法、裝置和儲存介質 Download PDF

Info

Publication number
TW202030623A
TW202030623A TW109101378A TW109101378A TW202030623A TW 202030623 A TW202030623 A TW 202030623A TW 109101378 A TW109101378 A TW 109101378A TW 109101378 A TW109101378 A TW 109101378A TW 202030623 A TW202030623 A TW 202030623A
Authority
TW
Taiwan
Prior art keywords
modal
information
message
feature
fusion
Prior art date
Application number
TW109101378A
Other languages
English (en)
Other versions
TWI785301B (zh
Inventor
王子豪
劉希慧
邵婧
李鴻升
盛律
閆俊杰
王曉剛
Original Assignee
大陸商深圳市商湯科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 大陸商深圳市商湯科技有限公司 filed Critical 大陸商深圳市商湯科技有限公司
Publication of TW202030623A publication Critical patent/TW202030623A/zh
Application granted granted Critical
Publication of TWI785301B publication Critical patent/TWI785301B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

一種跨模態訊息檢索方法、裝置和儲存介質,其中,該方法包括:獲取一第一模態訊息和一第二模態訊息;對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。通過本發明實施例提供的跨模態訊息檢索方案,在跨模態訊息檢索過程中考慮跨模態訊息之間的內在聯繫,提高跨模態訊息檢索結果的準確性。

Description

一種跨模態訊息檢索方法、裝置和儲存介質
本發明涉及計算機技術領域,特別是一種跨模態訊息檢索方法、裝置和儲存介質。
現有技術中,在進行跨模態訊息檢索時,通常是根據文本與圖像在同一向量空間中的特徵向量來確定文本與圖像的相似度,這種方式並未考慮不同模態訊息之間的內在聯繫,例如,文本中的名詞通常會對應到圖片中的某些區域,再例如,文本中的量詞會對應到圖片中特定的某些物品。顯然,當前的跨模態訊息的檢索方式中沒有考慮到跨模態訊息之間的內在聯繫,從而導致跨模態訊息的檢索結果不夠準確。
因此,如何提高跨模態訊息檢索過程中的準確率遂成為本發明所欲探討的主題。
因此,本發明的目的,即在提供一種跨模態訊息檢索技術方案。
於是,本發明提供了一種跨模態訊息檢索方法,所述方法包括:獲取一第一模態訊息和一第二模態訊息;對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵; 基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵,包括:基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數; 在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
在一些實施態樣中,所述基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數,包括:根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;根據該第一模態訊息的模態特徵和所述第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。
在一些實施態樣中,所述確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵,包括:該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
在一些實施態樣中,所述基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數,包括:根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
在一些實施態樣中,所述根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵,包括:該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
在一些實施態樣中,所述確定該第一模態訊息對應的第一融合特徵,包括:根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
在一些實施態樣中,所述利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵,包括:對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,得到第一融合結果;將所述融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果;基於作用後的第一融合結果和所述第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
在一些實施態樣中,所述確定該第二模態訊息對應的第二融合特徵,包括:根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵。
在一些實施態樣中,所述根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵,包括:對該第二模態訊息的模態特徵和所述第一注意力特徵進行特徵融合,得到第二融合結果;將所述融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果;基於作用後的第二融合結果和所述第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
在一些實施態樣中,所述基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度,包括:基於所述第一融合特徵的第一注意力訊息與所述第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述方法還包括:在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,該第二模態訊息爲多個;所述在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果,包括:根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;根據所述排序結果,確定相似度滿足所述預設條件的該第二模態訊息;將相似度滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
在一些實施態樣中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的另一種模態訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
在一些實施態樣中,所述方法還包括:所述訓練樣本對包括正樣本對和負樣本對;獲取每一訓練樣本對之間的相似度;根據所述正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及所述負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失;根據所述損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。
本發明的另一目的,即為提供一種跨模態訊息檢索裝置,所述裝置包括:一獲取模組,用於獲取該第一模態訊息和該第二模態訊息;一融合模組,用於對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;一確定模組,用於基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,所述融合模組包括:一確定子模組,用於基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數; 一融合子模組,用於在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
在一些實施態樣中,所述確定子模組包括:一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;一第一臨界確定單元,用於根據該第一模態訊息的模態特徵和所述第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。
在一些實施態樣中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第二注意力確定單元,具體用於,獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
在一些實施態樣中,所述確定子模組包括:一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;一第二臨界確定單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
在一些實施態樣中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第一注意力確定單元,具體用於,獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
在一些實施態樣中,所述融合子模組包括:一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;一第一融合單元,用於利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
在一些實施態樣中,所述第一融合單元,具體用於,對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,得到第一融合結果;將所述融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果;基於作用後的第一融合結果和所述第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
在一些實施態樣中,所述融合子模組包括: 一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;一第二融合單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵。
在一些實施態樣中,所述第二融合單元,具體用於,對該第二模態訊息的模態特徵和所述第一注意力特徵進行特徵融合,得到第二融合結果;將所述融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果;基於作用後的第二融合結果和所述第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
在一些實施態樣中,所述確定模組,具體用於,基於所述第一融合特徵的第一注意力訊息與所述第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
在一些實施態樣中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述裝置還包括:一檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,該第二模態訊息爲多個;所述檢索結果確定模組包括:一排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;一訊息確定子模組,用於根據所述排序結果,確定相似度滿足所述預設條件的該第二模態訊息;一檢索結果確定子模組,用於將相似度滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一些實施態樣中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
在一些實施態樣中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的另一種模態訊息。
在一些實施態樣中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
在一些實施態樣中,所述訓練樣本對包括正樣本對和負樣本對;所述裝置還包括:反饋模組,用於,獲取每一訓練樣本對之間的相似度;根據所述正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及所述負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失;根據所述損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。
本發明的另一目的,即為提供一種跨模態訊息檢索裝置,包括:一處理器;一用於儲存處理器可執行指令的記憶體模組;其中,所述處理器被配置爲執行上述方法。
本發明的另一目的,即為提供一種非易失性計算機可讀儲存介質,其上儲存有計算機程序指令,其中,所述計算機程序指令被處理器執行時實現上述方法。
本發明的功效在於:本發明實施例通過獲取該第一模態訊息和該第二模態訊息,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵,然後利用確定的第一融合特徵和第二融合特徵,確定該第一模態訊息與該第二模態訊息之間的相似度。這樣,可以通過對不同模態訊息進行特徵融合的方式,得到不同模態訊息之間的相似度,相比於現有技術方案中利用不同模態訊息的特徵在同一個向量空間的距離確定相似度的方式,本發明實施例考慮不同模態訊息之間存在的內在聯繫,通過對不同模態訊息進行特徵融合的方式確定不同模態訊息之間相似度,提高跨模態訊息檢索的準確性。
在本發明被詳細描述之前,應當注意在以下的說明內容中,類似的元件是以相同的編號來表示。
本發明之一實施例提供的跨模態訊息檢索方案,可以分別獲取該第一模態訊息和該第二模態訊息,然後可以基於一第一模態訊息的模態特徵和一第二模態訊息的模態特徵,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,得到該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵,從而可以將考慮該第一模態訊息與該第二模態訊息之間的內在聯繫,這樣,在確定該第一模態訊息和該第二模態訊息的相似度時,可以利用得到的兩個融合特徵對不同模態訊息之間的相似度進行衡量,考慮到不同模態訊息之間的內在聯繫,提高跨模態訊息檢索的準確性。
下面,結合附圖對本發明實施例提供的跨模態訊息檢索方案進行詳細說明。
圖1是本發明一實施例的跨模態訊息檢索方法的流程圖。如圖1所示,該方法包括: 步驟11,獲取一第一模態訊息和一第二模態訊息。
在該實施例中,檢索裝置(例如,檢索軟體、檢索平臺…等檢索裝置)可以獲取該第一模態訊息或者該第二模態訊息。例如,檢索設備獲取用戶設備傳輸的該第一模態訊息或該第二模態訊息;再例如,檢索設備根據用戶操作獲取該第一模態訊息或者該第二模態訊息。檢索平臺還可以在資料庫中獲取該第一模態訊息或者該第二模態訊息。這裡,該第一模態訊息和該第二模態訊息爲不同模態的訊息,例如,該第一模態訊息可以包括文本訊息或圖像訊息中的一種模態訊息,該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。這裡的該第一模態訊息和該第二模態訊息不僅限於圖像訊息和文本訊息,還可以包括語音訊息、視頻訊息和光信號訊息等。這裡的模態可以理解爲訊息的種類或者存在形式。該第一模態訊息和該第二模態訊息可以爲不同模態的訊息。
步驟12,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵。
這裡,在獲取該第一模態訊息和該第二模態訊息之後,可以分別對該第一模態訊息和該第二模態訊息進行特徵提取,確定該第一模態訊息的模態特徵和該第二模態訊息的模態特徵。該第一模態訊息的模態特徵可以形成第一模態特徵向量,該第二模態訊息的模態特徵可以形成第二模態特徵向量。然後可以根據第一模態特徵向量和第二模態特徵向量,對該第一模態訊息和該第二模態訊息進行特徵融合。這裡,在對該第一模態訊息和該第二模態訊息進行特徵融合時,可以先將第一模態特徵向量和第二模態特徵向量映射爲相同向量空間的特徵向量,然後對進行映射後得到的兩個特徵向量進行特徵融合。這種特徵融合的方式簡單,但是無法很好地捕捉該第一模態訊息和該第二模態訊息之間特徵的匹配程度。本發明實施例還提供了另一種特徵融合的方式,可以很好地捕捉該第一模態訊息和該第二模態訊息之間特徵的匹配程度。
圖2示出根據該實施例的確定融合特徵的流程圖,可以包括以下步驟:
步驟121,基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數。
步驟122,在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
這裡,在對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合時,可以先根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息的模態特徵與該第二模態訊息的模態特徵進行特徵融合的融合臨界參數,再利用融合臨界參數對該第一模態訊息和該第二模態訊息進行特徵融合。融合臨界參數可以根據特徵之前的匹配程度進行設置,特徵之間的匹配程度越高,特徵融合參數越大,從而可以在特徵融合過程中,保留相匹配的特徵,過濾不匹配的特徵,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵。通過在特徵融合過程中設置融合臨界參數,可以在跨模態訊息的檢索過程中很好地捕捉該第一模態訊息和該第二模態訊息之間特徵的匹配程度。
鑒於融合臨界參數可以使該第一模態訊息和該第二模態訊息更好地進行融合,下面對確定融合臨界參數的過程進行說明。
在一種可能的實現方式中,融合臨界參數可以包括第一融合臨界參數和第二融合臨界參數。第一融合臨界參數可以對應於該第一模態訊息,第二融合臨界參數可以對應與該第二模態訊息。在確定融合臨界參數時,可以分別確定第一融合臨界參數和第二融合臨界參數。在確定第一融合臨界參數時,可以根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵,然後根據該第一模態訊息的模態特徵和第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。相應地,在確定第二融合臨界參數時,可以根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵,然後根據該第二模態訊息的模態特徵和第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
這裡,該第一模態訊息可以包括至少一訊息單元,相應地,該第二模態訊息可以包括至少一訊息單元。每一訊息單元的尺寸可以相同或者不同,每一訊息單元之間可以存在交疊。例如,在該第一模態訊息或該第二模態訊息爲圖像訊息的情况下,圖像訊息可以包括多個圖像單元,每一圖像單元的尺寸可以相同或者不同,每一圖像單元之間可以存在交疊。圖3示出根據該實施例的圖像訊息包括多個圖像單元的示意圖,如圖3所示,圖像單元a對應人物的帽子區域,圖像單元b對應人物的耳朵區域,圖像單元c對應人物的眼部區域。圖像單元a、圖像單元b和圖像單元c的尺寸不同,並且,圖像單元a與圖像單元b之間存在交疊部分。
在一種可能的實現方式中,在確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵時,檢索裝置可以獲取該第一模態訊息的每一訊息單元的第一模態特徵,以及,獲取該第二模態訊息的每一訊息單元的第二模態特徵。然後根據第一模態特徵和第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重,再根據注意力權重和第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
相應地,在確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵時,檢索裝置可以獲取該第一模態訊息的每一訊息單元的第一模態特徵,以及,獲取該第二模態訊息的每一訊息單元的第二模態特徵。然後根據第一模態特徵和第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重,再根據注意力權重和第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
圖4示出根據該實施例的確定第一注意力特徵過程的示意圖。舉例來說,以該第一模態訊息爲圖像訊息、該第二模態訊息爲文本訊息爲例,檢索裝置可以獲取圖像訊息每一圖像單元的圖像特徵向量(第一模態特徵的示例),圖像單元的圖像特徵向量可以表示爲公式(1):
Figure 02_image001
(1);
其中,R爲圖像單元的個數,d爲圖像特徵向量的維數,
Figure 02_image003
爲第i個圖像單元的圖像特徵向量,
Figure 02_image005
可以表示實數矩陣。相應地,檢索裝置可以獲取文本訊息每一文本單元的文本特徵向量(第二模態特徵的示例),文本單元的文本特徵向量可以表示爲公式(2):
Figure 02_image007
(2);
其中,T爲文本單元的個數,d爲文本特徵向量的維數,
Figure 02_image009
爲第j個文本單元的文本特徵向量。然後檢索裝置可以根據圖像特徵向量和文本特徵向量,確定圖像特徵向量和文本特徵向量之間的關聯矩陣,然後利用關聯矩陣確定圖像訊息的每一圖像單元與文本訊息的每一文本單元之間的注意力權重。圖4中的MATMUL可以表示相乘操作。 這裡的關聯矩陣可以表示爲公式(3):
Figure 02_image011
(3);
其中,
Figure 02_image013
Figure 02_image015
Figure 02_image017
Figure 02_image013
Figure 02_image019
矩陣的維數。
Figure 02_image013
可以是將圖像特徵映射至
Figure 02_image017
維數向量空間的映射矩陣,
Figure 02_image019
可以是將文本特徵映射至
Figure 02_image017
維數向量空間的映射矩陣。
利用關聯矩陣確定的圖像單元與文本單元之間的注意力權重可以表示爲公式(4):
Figure 02_image021
(4);
其中,
Figure 02_image023
的第i行可以表示第i個文本單元對於圖像單元的注意力權重。softmax可以表示歸一化指數函數操作。
在得到圖像單元與文本單元之間的注意力權重之後,可以再根據注意力權重和圖像特徵,確定每一文本單元對圖像訊息關注的第一注意力特徵。文本單元對圖像訊息關注的第一注意力特徵可以表示爲公式(5):
Figure 02_image025
(5);
其中,
Figure 02_image027
的第i行可以表示第i個文本單元關注的圖像特徵所具有的注意力權重,其中,i爲小於或等於T的正整數。
相應地,利用關聯矩陣確定的文本單元與圖像單元之間的注意力權重可以表示爲
Figure 02_image029
。根據
Figure 02_image029
和S可以得到的文本單元對圖像訊息關注的第一注意力特徵
Figure 02_image031
;其中,
Figure 02_image033
的第j行可以表示第j個圖像單元關注的文本特徵所具有的注意力權重,其中,j爲小於或等於R的正整數。
在本發明實施例中,檢索裝置在確定第一注意力特徵和第二注意特徵之後,可以根據該第一模態訊息的模態特徵和第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數,以及,根據該第二模態訊息的模態特徵和第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。下面對確定第一融合臨界參數和第二融合臨界參數的過程進行說明。
以該第一模態訊息爲圖像訊息、該第二模態訊息爲文本訊息爲例,第一注意力特徵可以爲
Figure 02_image027
,第二注意力特徵可以爲
Figure 02_image033
。在確定圖像訊息對應的第一融合臨界參數時,可以根據以下公式(6)進行確定:
Figure 02_image035
(6);
其中,
Figure 02_image037
可以表示點積操作,
Figure 02_image039
可以表示S型函數,
Figure 02_image041
,可以表示
Figure 02_image003
Figure 02_image043
之間的融合臨界值。如果一個圖像單元與文本訊息匹配程度越高,融合臨界值越大,進而可以促進融合操作。反之,如果一個圖像單元與文本訊息匹配程度越低,融合臨界值越小,進而可以抑制融合操作。
圖像訊息的每一圖像單元對應的第一融合臨界參數可以表示爲公式(7):
Figure 02_image045
(7)。 通過相同的方式,可以得到文本訊息的每一文本單元對應的第二融合臨界參數公式(8):
Figure 02_image047
(8)。
在本發明實施例中,檢索裝置在確定融合臨界參數之後,可以融合臨界參數對該第一模態訊息和該第二模態訊息進行特徵融合。下面對該第一模態訊息和該第二模態訊息的特徵融合過程進行說明。
在一種可能的實現方式中,可以根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵,然後利用融合臨界參數對該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
這裡,在進行特徵融合時,可以將該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合,考慮了該第一模態訊息和該第二模態訊息之間的注意力訊息,考慮了該第一模態訊息和該第二模態訊息之間的內在關聯,使該第一模態訊息和該第二模態訊息更好地進行特徵融合。
在一種可能的實現方式中,在利用融合臨界參數對該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵時,可以先對該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合,得到第一融合結果。然後將融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果,再基於作用後的第一融合結果和第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
這裡,融合臨界參數可以包括第一融合臨界參數和第二融合臨界參數,在對該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合時,可以利用第一融合臨界參數。即,可以將第一融合臨界參數作用於第一融合結果,進而確定第一融合特徵。
下面結合附圖對本發明實施例提供的確定該第一模態訊息對應的第一融合特徵的過程進行說明。
圖5示出根據該實施例的確定第一融合特徵的過程的示意圖。以該第一模態訊息爲圖像訊息、該第二模態訊息爲文本訊息爲例,圖像訊息每一圖像單元的圖像特徵向量(第一模態特徵的示例)爲
Figure 02_image049
,圖像訊息第一注意力特徵形成的第一注意力特徵向量可以爲
Figure 02_image027
。文本訊息每一文本單元的文本特徵向量(第二模態特徵的示例)爲
Figure 02_image051
,圖像訊息第二注意力特徵形成的第二注意力特徵向量可以爲
Figure 02_image033
。檢索裝置可以對圖像特徵向量
Figure 02_image049
和第二注意力特徵向量
Figure 02_image033
進行特徵融合,得到第一融合結果
Figure 02_image053
,然後將第一融合參數
Figure 02_image055
作用於
Figure 02_image053
,得到作用後的第一融合結果
Figure 02_image057
;然後根據作用後的第一融合結果
Figure 02_image059
和圖像特徵向量
Figure 02_image049
得到第一融合特徵。
第一融合特徵可以表示爲公式(9):
Figure 02_image061
=ReLU(
Figure 02_image063
)+V       (9);
其中,
Figure 02_image065
Figure 02_image067
可以爲圖像訊息對應融合參數,
Figure 02_image037
可以表示點積操作,
Figure 02_image069
可以表示融合操作,ReLU可以表示線性整流操作。
相應地,在一種可能的實現方式中,可以根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵,然後利用融合臨界參數對該第二模態訊息的模態特徵和第一注意力特徵進行特徵融合,確定該第二模態訊息對應的第二融合特徵。
這裡,在進行特徵融合時,可以將該第二模態訊息的模態特徵和第一注意力特徵進行特徵融合,考慮了該第一模態訊息和該第二模態訊息之間的注意力訊息,考慮了該第一模態訊息和該第二模態訊息之間的內在關聯,使該第一模態訊息和該第二模態訊息更好地進行特徵融合。
這裡,在利用融合臨界參數對該第二模態訊息的模態特徵和第一注意力特徵進行特徵融合,確定該第二模態訊息對應的第二融合特徵時,可以先對該第二模態訊息的模態特徵和第一注意力特徵進行特徵融合,得到第二融合結果。然後將融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果,再基於作用後的第二融合結果和第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
這裡,在對該第一模態訊息的模態特徵和第二注意力特徵進行特徵融合時,可以利用第二融合臨界參數。即,可以將第二融合臨界參數作用於第二融合結果,進而確定第二融合特徵。
第二融合特徵的確定過程與第一融合特徵的確定過程類似,在此不贅述。以第二模態特徵爲文本訊息爲例,第二融合特徵形成的第二融合特徵向量可以表示爲公式(10):
Figure 02_image071
=ReLU(
Figure 02_image073
)+S      (10);
其中,
Figure 02_image075
Figure 02_image077
可以爲文本訊息對應的融合參數,
Figure 02_image037
可以表示點積操作,
Figure 02_image069
可以表示融合操作,ReLU可以表示線性整流操作。
步驟13,基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在本發明實施方式中,檢索裝置可以根據第一融合特徵形成的第一融合特徵向量以及第二融合特徵形成的第二融合特徵向量,確定該第一模態訊息和該第二模態訊息的相似度。例如,可以對第一融合特徵向量和第二融合特徵向量再次進行特徵融合操作,或者,對第一融合特徵向量和第二融合特徵向量進行匹配操作等,確定該第一模態訊息和該第二模態訊息的相似度。爲了使得到的相似度更加準確,本發明實施例還提供了一種確定該第一模態訊息和該第二模態訊息的相似度的方式,下面本發明實施例提供確定相似度的過程進行說明。
在一種可能的實現方式中,在確定該第一模態訊息和該第二模態訊息的相似度時,可以獲取第一融合特徵的第一注意力訊息,以及,獲取第二融合特徵的第二注意力訊息。然後可以基於第一融合特徵的第一注意力訊息與第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
舉例來說,如果該第一模態訊息爲圖像訊息的情况下,圖像訊息的第一融合特徵向量
Figure 02_image079
對應R個圖像單元。在根據第一融合特徵向量確定第一注意力訊息時,可以利用多個注意力分支提取不同圖像單元的注意力訊息。以存在M個注意力分支,每一注意分支的處理過程如公式(11)所示:
Figure 02_image081
=
Figure 02_image083
(11);
其中,
Figure 02_image085
可以表示線性映射參數;i
Figure 02_image087
,可以表示第i個注意力分支;
Figure 02_image089
可以表示來自第i個注意分支的R個圖像單元的注意力訊息;softmax 可以表示歸一化指數函數;
Figure 02_image091
可以表示權重控制參數,可以控制注意力訊息的大小,使得到的注意力訊息在合適的大小範圍。
然後可以將來自M個注意分支的注意力訊息進行聚合,並將聚合後的注意力訊息取平均值,作爲最終第一融合特徵的第一注意力訊息。
第一注意力訊息可以表示爲公式(12):
Figure 02_image093
=
Figure 02_image095
(12)。
相應地,第二注意力訊息可以爲
Figure 02_image097
該第一模態訊息和該第二模態訊息的相似度可以表示爲公式(13):
Figure 02_image099
(13);
這裡,
Figure 02_image101
可以在0至1之間,1表示該第一模態訊息與該第二模態訊息相匹配,0表示該第一模態訊息與該第二模態訊息不匹配。
Figure 02_image103
與0或1的距離確定該第一模態訊息與該第二模態訊息的匹配程度。
通過上述跨模態訊息檢索的方式,考慮不同模態訊息之間存在的內在聯繫,通過對不同模態訊息進行特徵融合的方式確定不同模態訊息之間相似度,提高跨模態訊息檢索的準確性。
圖6示出根據該實施例的跨模態訊息檢索的流程圖。該第一模態訊息可以爲第一模態的待檢索訊息,該第二模態訊息可以爲第二模態的預存訊息,該跨模態訊息檢索方法可以包括:
步驟61,獲取該第一模態訊息和該第二模態訊息。
步驟62,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵。
步驟63,基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
步驟64,在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
這裡,檢索裝置可以獲取用戶輸入的該第一模態訊息,然後可以在本地儲存或數據庫中獲取該第二模態訊息。在通過上述步驟確定該第一模態訊息與該第二模態訊息的相似度滿足預設條件的情况下,可以將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,該第二模態訊息爲多個,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果。然後根據該第二模態訊息的排序結果,可以確定相似度滿足預設條件的該第二模態訊息。然後將相似度滿足預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
這裡,預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
舉例來說,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以在第一檢索訊息與第二檢索訊息的相似度大於預設值時,將該第二模態訊息作爲該第一模態訊息的檢索結果。或者,在將該第二模態訊息作爲該第一模態訊息的檢索結果時,可以根據該第一模態訊息與每一第二模態訊息的相似度,按照相似度由小至大的順序爲多個該第二模態訊息進行排序,排序結果,然後根據排序結果,將排名大於預設排名的該第二模態訊息作爲該第一模態訊息的檢索結果。例如,將排名最高的該第二模態訊息作爲該第一模態訊息的檢索結果,即可以將相似度最大的該第二模態訊息作爲該第一模態訊息的檢索結果。這裡,檢索結果可以爲一個或多個。
這裡,在將該第二模態訊息作爲該第一模態訊息的檢索結果之後,還可以向用戶端輸出檢索結果。例如,可以將用戶端發送檢索結果,或者,在顯示界面上顯示檢索結果。
圖7示出根據該實施例的跨模態訊息檢索模型的訓練過程的示意圖。該第一模態訊息可以爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
在訓練過程中,可以將每對訓練樣本對輸入跨模態訊息檢索模型。以訓練樣本對爲圖像-文本對爲例,可以分別將圖像-文本對中的圖像樣本和文本樣本輸入跨模態訊息檢索模型,利用跨模態訊息檢索模型對圖像樣本和文本樣本的模態特徵進行提取。或者,將圖像樣本的圖像特徵和文本樣本的文本特徵輸入跨模態訊息檢索模型。然後可以利用跨模態訊息檢索模型的跨模態注意力層確定該第一模態訊息與該第二模態訊息相互關注的第一注意力特徵
Figure 02_image027
和第二注意力訊息
Figure 02_image033
,然後再利用臨界特徵融合層對該第一模態訊息和該第二模態訊息進行特徵融合,得到該第一模態訊息對應的第一融合特徵
Figure 02_image079
以及該第二模態訊息對應的第二融合特徵
Figure 02_image105
。然後在利用自我注意力層確定第一融合特徵
Figure 02_image079
自我關注的第一注意力訊息
Figure 02_image107
和第二融合特徵
Figure 02_image033
自我關注的第二注意力訊息
Figure 02_image097
。然後在多層感知器MLP結構和S型函數(
Figure 02_image109
)的作用下,輸出該第一模態訊息和該第二模態訊息之間的相似度m。
這裡,訓練樣本對可以包括正樣本對和負樣本對。在對跨模態訊息檢索模型的訓練過程中,可以利用損失函數得到跨模態訊息檢索模型的損失,從而根據得到的損失對跨模態訊息檢索模型的模型采參數進行調整。
在一種可能的實現方式中,可以獲取每一訓練樣本對之間的相似度,然後根據正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失。然後根據損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。在本實現方式中,利用匹配程度最高的正樣本對的相似度以及匹配程度最低的負樣本對的相似度確定訓練過程中的損失,從而可以提高跨模態訊息檢索模型檢索跨模態訊息準確性。
確定跨模態訊息檢索模型的損失可以通過以下公式(14)所示的方式:
Figure 02_image111
(14);
其中,
Figure 02_image113
可以爲計算的損失。
Figure 02_image115
可以表示樣本對之間的相似度,
Figure 02_image117
爲一組正樣本對,
Figure 02_image119
Figure 02_image121
爲相應的負樣本對。
通過上述跨模態訊息檢索模型訓練過程,利用匹配程度最高的正樣本對的相似度以及匹配程度最低的負樣本對的相似度確定訓練過程中的損失,從而可以提高跨模態訊息檢索模型檢索跨模態訊息準確性。
圖8示出根據該實施例的一種跨模態訊息檢索裝置的方塊圖,如圖8所示,所述跨模態訊息檢索裝置,包括:一獲取模組81,用於獲取該第一模態訊息和該第二模態訊息;一融合模組82,用於對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵; 一確定模組83,用於基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
在一種可能的實現方式中,所述融合模組82包括:一確定子模組,用於基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數; 一融合子模組,用於在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
在一種可能的實現方式中,所述確定子模組包括:一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;一第一臨界確定單元,用於根據該第一模態訊息的模態特徵和所述第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。
在一種可能的實現方式中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第二注意力確定單元,具體用於,獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
在一種可能的實現方式中,所述確定子模組包括:一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;一第二臨界確定單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
在一種可能的實現方式中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第一注意力確定單元,具體用於,獲取該第一模態訊息的每一訊息單元的第一模態特徵;獲取該第二模態訊息的每一訊息單元的第二模態特徵;根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重;根據所述注意力權重和所述第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
在一種可能的實現方式中,所述融合子模組包括:一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵;一第一融合單元,用於利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
在一種可能的實現方式中,所述第一融合單元,具體用於,對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,得到第一融合結果;將所述融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果;基於作用後的第一融合結果和所述第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
在一種可能的實現方式中,所述融合子模組包括:一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵;一第二融合單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵。
在一種可能的實現方式中,所述第二融合單元,具體用於,對該第二模態訊息的模態特徵和所述第一注意力特徵進行特徵融合,得到第二融合結果;將所述融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果;基於作用後的第二融合結果和所述第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
在一種可能的實現方式中,所述確定模組,具體用於,基於所述第一融合特徵的第一注意力訊息與所述第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
在一種可能的實現方式中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述裝置還包括:一檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,該第二模態訊息爲多個;所述檢索結果確定模組包括:一排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果;一訊息確定子模組,用於根據所述排序結果,確定相似度滿足所述預設條件的該第二模態訊息;一檢索結果確定子模組,用於將相似度滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
在一種可能的實現方式中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
在一種可能的實現方式中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的另一種模態訊息。
在一種可能的實現方式中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
在一種可能的實現方式中,所述訓練樣本對包括正樣本對和負樣本對;所述裝置還包括:反饋模組,用於,獲取每一訓練樣本對之間的相似度;根據所述正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及所述負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失;根據所述損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。
可以理解,本發明提及的上述各個方法實施例,在不違背原理邏輯的情况下,均可以彼此相互結合形成結合後的實施例,限於篇幅,本發明不再贅述。
此外,本發明還提供了上述裝置、電子設備、計算機可讀儲存介質、程序,上述均可用來實現本發明提供的任一種跨模態訊息檢索方法,相應技術方案和描述和參見方法部分的相應記載,不再贅述。
圖9是一示例性實施例示出的一種用於跨模態訊息檢索的跨模態訊息檢索裝置1900的方塊圖。例如,跨模態訊息檢索裝置1900可以被提供爲一服務器。參照圖9,跨模態訊息檢索裝置1900包括處理模組1922,其進一步包括一個或多個處理器,以及由記憶體模組1932所代表的記憶體模組資源,用於儲存可由處理模組1922的執行的指令,例如應用程序。記憶體模組1932中儲存的應用程序可以包括一個或一個以上的每一個對應於一組指令的模組。此外,處理模組1922被配置爲執行指令,以執行上述方法。
跨模態訊息檢索裝置1900還可以包括一個電源組件1926被配置爲執行跨模態訊息檢索裝置1900的電源管理,一個有線或無線網路接頭1950被配置爲將跨模態訊息檢索裝置1900連接到網路,和一個輸入輸出(I/O)接頭1958。跨模態訊息檢索裝置1900可以操作基於儲存在記憶體模組1932的操作系統,例如Windows ServerTM,Mac OS XTM,UnixTM, LinuxTM,FreeBSDTM或類似。
在示例性實施例中,還提供了一種非易失性計算機可讀儲存介質(non-volatile memory),例如包括計算機程序指令的記憶體模組1932,上述計算機程序指令可由跨模態訊息檢索裝置1900的處理模組1922執行以完成上述方法。
本發明可以是系統、方法和/或計算機程序産品。計算機程序産品可以包括計算機可讀儲存介質,其上載有用於使處理器實現本發明的各個方面的計算機可讀程序指令。
計算機可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。計算機可讀儲存介質例如是電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。計算機可讀儲存介質的更具體的例子(非窮舉的列表)包括:便攜式計算機盤、硬盤、隨機存取記憶體模組(RAM)、只讀記憶體模組(ROM)、可擦式可編程只讀記憶體模組(EPROM或閃存)、靜態隨機存取記憶體模組(SRAM)、便攜式壓縮盤只讀記憶體模組(CD-ROM)、數字多功能盤(DVD)、記憶棒、軟盤、機械編碼設備、例如其上儲存有指令的打孔卡或凹槽內凸起結構、以及上述的任意合適的組合。這裡所使用的計算機可讀儲存介質不被解釋爲瞬時信號本身,諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波(例如,通過光纖電纜的光脈衝)、或者通過電線傳輸的電信號。
這裡所描述的計算機可讀程序指令可以從計算機可讀儲存介質下載到各個計算/處理設備,或者通過網路、例如網際網路、局域網、廣域網和/或無線網下載到外部計算機或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關計算機和/或邊緣服務器。每一計算/處理設備中的網路適配卡或者網路接頭從網路接收計算機可讀程序指令,並轉發該計算機可讀程序指令,以供儲存在各個計算/處理設備中的計算機可讀儲存介質中。
用於執行本發明操作的計算機程序指令可以是彙編指令、指令集架構(ISA)指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼,所述編程語言包括面向對象的編程語言—諸如Smalltalk、C++等,以及常規的過程式編程語言—諸如“C”語言或類似的編程語言。計算機可讀程序指令可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作爲一個獨立的軟體包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網路—包括區域網路(LAN)或廣域網路(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用網際網路服務提供商來通過網際網路連接)。在一些實施例中,通過利用計算機可讀程序指令的狀態訊息來個性化定制電子電路,例如可編程邏輯電路、現場可編程門陣列(FPGA)或可編程邏輯陣列(PLA),該電子電路可以執行計算機可讀程序指令,從而實現本發明的各個方面。
這裡參照根據本發明實施例的方法、裝置(系統)和計算機程序産品的流程圖和/或方塊圖描述了本發明的各個方面。應當理解,流程圖和/或方塊圖的每一方框以及流程圖和/或方塊圖中各方框的組合,都可以由計算機可讀程序指令實現。
這些計算機可讀程序指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器,從而生産出一種機器,使得這些指令在通過計算機或其它可編程數據處理裝置的處理器執行時,産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些計算機可讀程序指令儲存在計算機可讀儲存介質中,這些指令使得計算機、可編程數據處理裝置和/或其他設備以特定方式工作,從而,儲存有指令的計算機可讀介質則包括一個製造品,其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。
也可以把計算機可讀程序指令加載到計算機、其它可編程數據處理裝置、或其它設備上,使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟,以産生計算機實現的過程,從而使得在計算機、其它可編程數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。
附圖中的流程圖和方塊圖顯示了根據本發明的多個實施例的系統、方法和計算機程序産品的可能實現的體系架構、功能和操作。在這點上,流程圖或方塊圖中的每一方框可以代表一個模組、程序段或指令的一部分,所述模組、程序段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中,方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如,兩個連續的方框實際上可以基本並行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要注意的是,方塊圖和/或流程圖中的每一方框、以及方塊圖和/或流程圖中的方框的組合,可以用執行規定的功能或動作的專用的基於硬件的系統來實現,或者可以用專用硬件與計算機指令的組合來實現
以上已經描述了本發明的各實施例,上述說明是示例性的,並非窮盡性的,並且也不限於所披露的各實施例。在不偏離所說明的各實施例的範圍和精神的情况下,對於本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。本文中所用術語的選擇,旨在最好地解釋各實施例的原理、實際應用或對市場中技術的技術改進,或者使本技術領域的其它普通技術人員能理解本文披露的各實施例。
綜上所述,本發明實施例通過獲取該第一模態訊息和該第二模態訊息,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵,然後利用確定的第一融合特徵和第二融合特徵,確定該第一模態訊息與該第二模態訊息之間的相似度。這樣,可以通過對不同模態訊息進行特徵融合的方式,得到不同模態訊息之間的相似度,相比於現有技術方案中利用不同模態訊息的特徵在同一個向量空間的距離確定相似度的方式,本發明實施例考慮不同模態訊息之間存在的內在聯繫,通過對不同模態訊息進行特徵融合的方式確定不同模態訊息之間相似度,提高跨模態訊息檢索的準確性。故確實能達成本發明的目的。
惟以上所述者,僅為本發明的實施例而已,當不能以此限定本發明實施的範圍,凡是依本發明申請專利範圍及專利說明書內容所作的簡單的等效變化與修飾,皆仍屬本發明專利涵蓋的範圍內。
11~13:步驟 121、122:步驟 61~64:步驟 81:獲取模組 82:融合模組 83:確定模組 1900:跨模態訊息檢索裝置 1922:處理模組 1926:電源模組 1932:記憶體模組 1950:網路接頭 1958:輸入輸出接頭
本發明的其他的特徵及功效,將於參照圖式的實施方式中清楚地呈現,其中: 圖1是本發明之一實施例的跨模態訊息檢索方法的一流程圖; 圖2是該實施例的確定融合特徵的一流程圖; 圖3是該實施例的圖像訊息包括多個圖像單元的一示意圖; 圖4是該實施例的確定第一注意力特徵過程的一示意圖; 圖5是該實施例的確定第一融合特徵的過程的一示意圖; 圖6是該實施例的跨模態訊息檢索的一流程圖; 圖7是該實施例的跨模態訊息檢索模型的訓練過程的一示意圖; 圖8是該實施例的一種跨模態訊息檢索裝置的一方塊圖;及 圖9是該實施例的一種跨模態訊息檢索裝置的一方塊圖。
11~13:步驟

Claims (36)

  1. 一種跨模態訊息檢索方法,包括: 獲取該第一模態訊息和該第二模態訊息; 對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;及 基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
  2. 如請求項1所述的方法,其中,所述對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵的步驟,包括: 基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數; 在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
  3. 如請求項2所述的方法,其中,所述基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數的步驟,包括: 根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵; 根據該第一模態訊息的模態特徵和所述第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。
  4. 如請求項3所述的方法,其中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵,包括: 獲取該第一模態訊息的每一訊息單元的第一模態特徵; 獲取該第二模態訊息的每一訊息單元的第二模態特徵; 根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重; 根據所述注意力權重和所述第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
  5. 如請求項2所述的方法,其中,所述基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數的步驟,包括: 根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵; 根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
  6. 如請求項5所述的方法,其中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵的步驟,包括: 獲取該第一模態訊息的每一訊息單元的第一模態特徵; 獲取該第二模態訊息的每一訊息單元的第二模態特徵; 根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重; 根據所述注意力權重和所述第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
  7. 如請求項2所述的方法,其中,所述確定該第一模態訊息對應的第一融合特徵的步驟,包括: 根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵; 利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
  8. 如請求項7所述的方法,其中,所述利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵的步驟,包括: 對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,得到第一融合結果; 將所述融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果; 基於作用後的第一融合結果和所述第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
  9. 如請求項2所述的方法,其中,所述確定該第二模態訊息對應的第二融合特徵的步驟,包括: 根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵; 根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵。
  10. 如請求項9所述的方法,其中,所述根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵的步驟,包括: 對該第二模態訊息的模態特徵和所述第一注意力特徵進行特徵融合,得到第二融合結果; 將所述融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果; 基於作用後的第二融合結果和所述第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
  11. 如請求項1所述的方法,其中,所述基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度的步驟,包括: 基於所述第一融合特徵的第一注意力訊息與所述第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
  12. 如請求項1所述的方法,其中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述方法還包括: 在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
  13. 如請求項12所述的方法,其中,該第二模態訊息爲多個;所述在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果,包括: 根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果; 根據所述排序結果,確定相似度滿足所述預設條件的該第二模態訊息; 將相似度滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
  14. 如請求項13所述的方法,其中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
  15. 如請求項1所述的方法,其中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的另一種模態訊息。
  16. 如請求項1所述的方法,其中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
  17. 如請求項16所述的方法,其中,所述訓練樣本對包括正樣本對和負樣本對;所述方法還包括: 獲取每一訓練樣本對之間的相似度; 根據所述正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及所述負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失; 根據所述損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。
  18. 一種跨模態訊息檢索裝置,其中,所述裝置包括: 一獲取模組,用於獲取該第一模態訊息和該第二模態訊息; 一融合模組,用於對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵; 一確定模組,用於基於所述第一融合特徵和所述第二融合特徵,確定該第一模態訊息和該第二模態訊息的相似度。
  19. 如請求項18所述的裝置,其中,所述融合模組包括: 一確定子模組,用於基於該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息與該第二模態訊息進行特徵融合的融合臨界參數; 一融合子模組,用於在所述融合臨界參數的作用下,對該第一模態訊息的模態特徵和該第二模態訊息的模態特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵以及該第二模態訊息對應的第二融合特徵;其中,所述融合臨界參數用於根據特徵之間的匹配程度配置於特徵融合後的融合特徵,其中,特徵之間的匹配程度越低,特徵融合參數越小。
  20. 如請求項19所述的裝置,其中,所述確定子模組包括: 一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵; 一第一臨界確定單元,用於根據該第一模態訊息的模態特徵和所述第二注意力特徵,確定該第一模態訊息對應的第一融合臨界參數。
  21. 如請求項20所述的裝置,其中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第二注意力確定單元,具體用於, 獲取該第一模態訊息的每一訊息單元的第一模態特徵; 獲取該第二模態訊息的每一訊息單元的第二模態特徵; 根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重; 根據所述注意力權重和所述第二模態特徵,確定該第一模態訊息的每一訊息單元對該第二模態訊息關注的第二注意力特徵。
  22. 如請求項19所述的裝置,其中,所述確定子模組包括: 一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵; 一第二臨界確定單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合臨界參數。
  23. 如請求項22所述的裝置,其中,該第一模態訊息包括至少一訊息單元,該第二模態訊息包括至少一訊息單元;所述第一注意力確定單元,具體用於, 獲取該第一模態訊息的每一訊息單元的第一模態特徵; 獲取該第二模態訊息的每一訊息單元的第二模態特徵; 根據所述第一模態特徵和所述第二模態特徵,確定該第一模態訊息的每一訊息單元與該第二模態訊息的每一訊息單元之間的注意力權重; 根據所述注意力權重和所述第一模態特徵,確定該第二模態訊息的每一訊息單元對該第一模態訊息關注的第一注意力特徵。
  24. 如請求項19所述的裝置,其中,所述融合子模組包括: 一第二注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第一模態訊息對於該第二模態訊息關注的第二注意力特徵; 一第一融合單元,用於利用所述融合臨界參數對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,確定該第一模態訊息對應的第一融合特徵。
  25. 如請求項24所述的裝置,其中,所述第一融合單元,具體用於, 對該第一模態訊息的模態特徵和所述第二注意力特徵進行特徵融合,得到第一融合結果; 將所述融合臨界參數作用於所述第一融合結果,得到作用後的第一融合結果; 基於作用後的第一融合結果和所述第一模態特徵,確定該第一模態訊息對應的第一融合特徵。
  26. 如請求項19所述的裝置,其中,所述融合子模組包括: 一第一注意力確定單元,用於根據該第一模態訊息的模態特徵和該第二模態訊息的模態特徵,確定該第二模態訊息對於該第一模態訊息關注的第一注意力特徵; 一第二融合單元,用於根據該第二模態訊息的模態特徵和所述第一注意力特徵,確定該第二模態訊息對應的第二融合特徵。
  27. 如請求項26所述的裝置,其中,所述第二融合單元,具體用於, 對該第二模態訊息的模態特徵和所述第一注意力特徵進行特徵融合,得到第二融合結果; 將所述融合臨界參數作用於所述第二融合結果,得到作用後的第二融合結果; 基於作用後的第二融合結果和所述第二模態特徵,確定該第二模態訊息對應的第二融合特徵。
  28. 如請求項18所述的裝置,其中,所述確定模組,具體用於, 基於所述第一融合特徵的第一注意力訊息與所述第二融合特徵量的第二注意力訊息,確定該第一模態訊息和該第二模態訊息的相似度。
  29. 如請求項18所述的裝置,其中,該第一模態訊息爲第一模態的待檢索訊息,該第二模態訊息爲第二模態的預存訊息;所述裝置還包括: 一檢索結果確定模組,用於在所述相似度滿足預設條件的情况下,將該第二模態訊息作爲該第一模態訊息的檢索結果。
  30. 如請求項29所述的裝置,其中,該第二模態訊息爲多個;所述檢索結果確定模組包括: 一排序子模組,用於根據該第一模態訊息與每一第二模態訊息的相似度,對多個該第二模態訊息進行排序,得到排序結果; 一訊息確定子模組,用於根據所述排序結果,確定相似度滿足所述預設條件的該第二模態訊息; 一檢索結果確定子模組,用於將相似度滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。
  31. 如請求項30所述的裝置,其中,所述預設條件包括以下任一條件:相似度大於預設值;相似度由小至大的排名大於預設排名。
  32. 如請求項18所述的裝置,其中,該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息;該第二模態訊息包括文本訊息或圖像訊息中的另一種模態訊息。
  33. 如請求項18所述的裝置,其中,該第一模態訊息爲第一模態的訓練樣本訊息,該第二模態訊息爲第二模態的訓練樣本訊息;每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
  34. 如請求項33所述的裝置,其中,所述訓練樣本對包括正樣本對和負樣本對;所述裝置還包括:反饋模組,用於, 獲取每一訓練樣本對之間的相似度; 根據所述正樣本對中模態訊息匹配程度最高的正樣本對的相似度,以及所述負樣本對中匹配程度最低的負樣本對的相似度,確定該第一模態訊息與該第二模態訊息特徵融合過程中的損失; 根據所述損失對該第一模態訊息與該第二模態訊息特徵融合過程所利用的跨模態訊息檢索模型的模型參數進行調整。
  35. 一種跨模態訊息檢索裝置,其中,包括: 一處理器; 一用於儲存處理器可執行指令的記憶體模組; 其中,所述處理器被配置爲執行記憶體模組儲存的可執行指令時,實現權利要求1至17中任意一項所述的方法。
  36. 一種非易失性計算機可讀儲存介質,其上儲存有計算機程序指令,其中,所述計算機程序指令被處理器執行時實現權利要求1至17中任意一項所述的方法。
TW109101378A 2019-01-31 2020-01-15 一種跨模態訊息檢索方法、裝置和儲存介質 TWI785301B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910099972.3A CN109816039B (zh) 2019-01-31 2019-01-31 一种跨模态信息检索方法、装置和存储介质
CN201910099972.3 2019-01-31

Publications (2)

Publication Number Publication Date
TW202030623A true TW202030623A (zh) 2020-08-16
TWI785301B TWI785301B (zh) 2022-12-01

Family

ID=66606255

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109101378A TWI785301B (zh) 2019-01-31 2020-01-15 一種跨模態訊息檢索方法、裝置和儲存介質

Country Status (6)

Country Link
US (1) US20210295115A1 (zh)
JP (1) JP2022510704A (zh)
CN (1) CN109816039B (zh)
SG (1) SG11202106066YA (zh)
TW (1) TWI785301B (zh)
WO (1) WO2020155418A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941727B (zh) * 2019-11-29 2023-09-29 北京达佳互联信息技术有限公司 一种资源推荐方法、装置、电子设备及存储介质
CN111026894B (zh) * 2019-12-12 2021-11-26 清华大学 基于可信度自适应匹配网络的跨模态图像文本检索方法
CN111461203A (zh) 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112767303B (zh) * 2020-08-12 2023-11-28 腾讯科技(深圳)有限公司 一种图像检测方法、装置、设备及计算机可读存储介质
CN112101380B (zh) * 2020-08-28 2022-09-02 合肥工业大学 基于图文匹配的产品点击率预测方法和***、存储介质
CN112989097A (zh) * 2021-03-23 2021-06-18 北京百度网讯科技有限公司 模型训练、图片检索方法及装置
CN113032614A (zh) * 2021-04-28 2021-06-25 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113657478B (zh) * 2021-08-10 2023-09-22 北京航空航天大学 一种基于关系建模的三维点云视觉定位方法
CN115858826A (zh) * 2021-09-22 2023-03-28 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN113822224B (zh) * 2021-10-12 2023-12-26 中国人民解放军国防科技大学 融合多模态学习与多粒度结构学习的谣言检测方法及装置
CN114417875A (zh) * 2022-01-25 2022-04-29 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、可读存储介质及程序产品
CN114419351A (zh) * 2022-01-28 2022-04-29 深圳市腾讯计算机***有限公司 图文预训练模型训练、图文预测模型训练方法和装置
CN114356852B (zh) * 2022-03-21 2022-09-09 展讯通信(天津)有限公司 一种文件检索方法、电子设备及存储介质
CN114693995B (zh) * 2022-04-14 2023-07-07 北京百度网讯科技有限公司 应用于图像处理的模型训练方法、图像处理方法和设备
CN114782719B (zh) * 2022-04-26 2023-02-03 北京百度网讯科技有限公司 一种特征提取模型的训练方法、对象检索方法以及装置
CN115909317B (zh) * 2022-07-15 2024-07-05 广州珠江在线多媒体信息有限公司 一种三维模型-文本联合表达的学习方法及***
CN116108147A (zh) * 2023-04-13 2023-05-12 北京蜜度信息技术有限公司 基于特征融合的跨模态检索方法、***、终端及存储介质
CN117078983B (zh) * 2023-10-16 2023-12-29 安徽启新明智科技有限公司 图像匹配方法、装置、设备
CN117992805A (zh) * 2024-04-07 2024-05-07 武汉商学院 基于张量积图融合扩散的零样本跨模态检索方法、***

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4340939B2 (ja) * 1998-10-09 2009-10-07 ソニー株式会社 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
US7246043B2 (en) * 2005-06-30 2007-07-17 Oracle International Corporation Graphical display and correlation of severity scores of system metrics
US20130226892A1 (en) * 2012-02-29 2013-08-29 Fluential, Llc Multimodal natural language interface for faceted search
JP6368677B2 (ja) * 2015-04-06 2018-08-01 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
US9836671B2 (en) * 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
TWI553494B (zh) * 2015-11-04 2016-10-11 創意引晴股份有限公司 基於多模態融合之智能高容錯視頻識別系統及其識別方法
CN105760507B (zh) * 2016-02-23 2019-05-03 复旦大学 基于深度学习的跨模态主题相关性建模方法
CN106202256B (zh) * 2016-06-29 2019-12-17 西安电子科技大学 基于语义传播及混合多示例学习的Web图像检索方法
CN107918782B (zh) * 2016-12-29 2020-01-21 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与***
CN107515895B (zh) * 2017-07-14 2020-06-05 中国科学院计算技术研究所 一种基于目标检测的视觉目标检索方法与***
CN107562812B (zh) * 2017-08-11 2021-01-15 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN107608943B (zh) * 2017-09-08 2020-07-28 中国石油大学(华东) 融合视觉注意力和语义注意力的图像字幕生成方法及***
CN107979764B (zh) * 2017-12-06 2020-03-31 中国石油大学(华东) 基于语义分割和多层注意力框架的视频字幕生成方法
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108304506B (zh) * 2018-01-18 2022-08-26 腾讯科技(深圳)有限公司 检索方法、装置及设备
CN108932304B (zh) * 2018-06-12 2019-06-18 山东大学 基于跨模态的视频时刻定位方法、***及存储介质

Also Published As

Publication number Publication date
WO2020155418A1 (zh) 2020-08-06
CN109816039A (zh) 2019-05-28
US20210295115A1 (en) 2021-09-23
CN109816039B (zh) 2021-04-20
JP2022510704A (ja) 2022-01-27
TWI785301B (zh) 2022-12-01
SG11202106066YA (en) 2021-07-29

Similar Documents

Publication Publication Date Title
TWI785301B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
TWI737006B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
TWI754855B (zh) 人臉圖像識別方法、裝置、電子設備及儲存介質
CN109146892B (zh) 一种基于美学的图像裁剪方法及装置
WO2020000879A1 (zh) 图像识别方法和装置
WO2020006961A1 (zh) 用于提取图像的方法和装置
JP2022058915A (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
WO2020224405A1 (zh) 图像处理方法、装置、计算机可读介质及电子设备
WO2020253127A1 (zh) 脸部特征提取模型训练方法、脸部特征提取方法、装置、设备及存储介质
JP7394809B2 (ja) ビデオを処理するための方法、装置、電子機器、媒体及びコンピュータプログラム
CN113378784A (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN112862877B (zh) 用于训练图像处理网络和图像处理的方法和装置
CN113868497A (zh) 一种数据分类方法、装置和存储介质
CN113361710B (zh) 学生模型训练方法、图片处理方法、装置及电子设备
WO2022236824A1 (zh) 目标检测网络构建优化方法、装置、设备、介质及产品
TWI735112B (zh) 圖像生成方法、電子設備和儲存介質
CN114020950B (zh) 图像检索模型的训练方法、装置、设备以及存储介质
WO2023005386A1 (zh) 模型训练方法和装置
CN113627536B (zh) 模型训练、视频分类方法,装置,设备以及存储介质
WO2023005253A1 (zh) 文本识别模型框架的训练方法、装置及***
TW201931163A (zh) 影像搜尋方法、系統和索引建構方法和媒體
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
CN107729821B (zh) 一种基于一维序列学习的视频概括方法
CN117315334A (zh) 图像分类方法、模型的训练方法、装置、设备及介质