TWI737006B

TWI737006B - 一種跨模態訊息檢索方法、裝置和儲存介質

Info

Publication number: TWI737006B
Application number: TW108137215A
Authority: TW
Inventors: 王子豪; 邵婧; 李鴻升; 閆俊杰; 王曉剛; 盛律
Original assignee: 大陸商深圳市商湯科技有限公司
Priority date: 2019-01-31
Filing date: 2019-10-16
Publication date: 2021-08-21
Also published as: JP7164729B2; JP2022509327A; TW202030640A; US20210240761A1; WO2020155423A1; CN109886326B; SG11202104369UA; CN109886326A

Abstract

本發明涉及一種跨模態訊息檢索方法、裝置和儲存介質，其中，該方法包括：獲取該第一模態訊息和該第二模態訊息；根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。通過本公開實施例提供的跨模態訊息檢索方案，可以實現在較低的時間複雜度內實現跨模態訊息檢索。

Description

一種跨模態訊息檢索方法、裝置和儲存介質

本發明涉及計算機技術領域，特別是指一種種跨模態訊息檢索方法、裝置和儲存介質。

在現有技術中，通常是藉由提高模態訊息的語意特徵質量以提高跨模態訊息檢索的準確率，並未通過優化特徵相似度的方式提高跨模態訊息檢索的準確率。這種方式過於依賴通過模態訊息提取出來的特徵質量，導致跨模態訊息檢索的效率過低。

因此，如何提高跨模態訊息檢索的準確率，使跨模態訊息在檢索過程中既可以保證檢索的準確性，還可以提高檢索的效率，遂成為本發明所欲探討的主題。

因此，本發明的目的，即在提供一種跨模態訊息檢索方法。

於是本發明之所述方法包括：獲取一第一模態訊息和一第二模態訊息；根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。

在一些實施態樣中，所述第一語意特徵包括第一分語意特徵和第一和語意特徵；所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵；所述第二語意特徵包括第二分語意特徵和第二和語意特徵；所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。

在一些實施態樣中，所述根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵，包括：將該第一模態訊息劃分爲至少一個訊息單元；在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。

在一些實施態樣中，所述方法還包括：根據每一訊息單元的第一分語意特徵，確定該第一模態訊息的第一和語意特徵；根據每一訊息單元的第一分注意力特徵，確定該第一模態訊息的第一和注意力特徵。

在一些實施態樣中，所述根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵，包括：將該第二模態訊息劃分爲至少一個訊息單元；在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；基於每一訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；基於每一訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。

在一些實施態樣中，所述方法還包括：根據每一訊息單元的第二分語意特徵，確定該第二模態訊息的第二和語意特徵；根據每一訊息單元的第二分注意力特徵，確定該第二模態訊息的第二和注意力特徵。

在一些實施態樣中，所述基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第一語意特徵，確定該第一模態訊息和該第二模態訊息的相似度，包括：根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息；根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息；根據所述第一注意力訊息和所述第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。

在一些實施態樣中，所述根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息，包括：根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息；根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。

在一些實施態樣中，所述根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息，包括：根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息；根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。

在一些實施態樣中，該第一模態訊息爲第一模態的待檢索訊息，該第二模態訊息爲第二模態的預存訊息；所述方法還包括：在所述相似度滿足預設條件的情况下，將該第二模態訊息作爲該第一模態訊息的檢索結果。

在一些實施態樣中，該第二模態訊息爲多個；所述在所述相似度滿足預設條件的情况下，將該第二模態訊息作爲該第一模態訊息的檢索結果，包括：根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果；根據所述排序結果，確定滿足所述預設條件的該第二模態訊息；將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。

在一些實施態樣中，所述預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。在一種可能的實現方式中，所述將該第二模態訊息作爲該第一模態訊息的檢索結果之後，還包括：向用戶端輸出所述檢索結果。

在一些實施態樣中，該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息；該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。

在一些實施態樣中，該第一模態訊息爲第一模態的訓練樣本訊息，該第二模態訊息爲第二模態的訓練樣本訊息；每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。

本發明的另一目的，即為提供一種跨模態訊息檢索裝置，所述裝置包括：一獲取模組，用於獲取該第一模態訊息和該第二模態訊息；一第一確定模組，用於根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；一第二確定模組，用於根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；一相似度確定模組，用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。

在一些實施態樣中，所述第一確定模組包括：一第一劃分子模組，用於將該第一模態訊息劃分爲至少一個訊息單元；一第一模態確定子模組，用於在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；一第一分語意提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；一第一分注意力提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。

在一些實施態樣中，所述裝置還包括：一第一和語意確定子模組，用於根據每一訊息單元的第一分語意特徵，確定該第一模態訊息的第一和語意特徵；一第一和注意力確定子模組，用於根據每一訊息單元的第一分注意力特徵，確定該第一模態訊息的第一和注意力特徵。

在一些實施態樣中，所述第二確定模組包括：一第二劃分子模組，用於將該第二模態訊息劃分爲至少一個訊息單元；一第二模態確定子模組，用於在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；一第二分語意提取子模組，用於基於每一訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；一第二分注意力提取子模組，用於基於每一訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。

在一些實施態樣中，所述裝置還包括：一第二和語意確定子模組，用於根據每一訊息單元的第二分語意特徵，確定該第二模態訊息的第二和語意特徵；一第二和注意力確定子模組，用於根據每一訊息單元的第二分注意力特徵，確定該第二模態訊息的第二和注意力特徵。

在一些實施態樣中，所述相似度確定模組包括：一第一注意力訊息確定子模組，用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息；一第二注意力訊息確定子模組，用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息；一相似度確定子模組，用於根據所述第一注意力訊息和所述第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。

在一些實施態樣中，所述第一注意力訊息確定子模組，具體用於，根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息；根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。

在一些實施態樣中，所述第二注意力訊息確定子模組，具體用於，根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息；根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。

在一些實施態樣中，該第一模態訊息爲第一模態的待檢索訊息，該第二模態訊息爲第二模態的預存訊息；所述裝置還包括：檢索結果確定模組，用於在所述相似度滿足預設條件的情况下，將該第二模態訊息作爲該第一模態訊息的檢索結果。

在一些實施態樣中，該第二模態訊息爲多個；所述檢索結果確定模組包括：一排序子模組，用於根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果；一訊息確定子模組，用於根據所述排序結果，確定滿足所述預設條件的該第二模態訊息；一檢索結果確定子模組，用於將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。

在一些實施態樣中，所述預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。

在一些實施態樣中，所述裝置還包括：一輸出模組，用於向用戶端輸出所述檢索結果。

本發明的另一目的，即為提供一種跨模態訊息檢索裝置，包括：一處理器；一用於儲存處理器可執行指令的記憶體模組；其中，所述處理器被配置爲執行上述方法。

本發明的另一目的，即為提供一種非易失性計算機可讀儲存介質，其上儲存有計算機程序指令，其中，所述計算機程序指令被處理器執行時實現上述方法。

本發明的功效在於：本實施例通過獲取該第一模態訊息和該第二模態訊息，根據該第一模態訊息的模態特徵可以分別確定該第一模態訊息的第一語意特徵和第一注意力特徵，並根據該第二模態訊息的模態特徵可以分別確定該第二模態訊息的第二語意特徵和第二注意力特徵，進而可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。這樣，可以利用不同模態訊息的語意特徵和注意力特徵，得到不同模態訊息之間的相似度，相比於現有技術方案中過於特徵提取的質量而言，本公開實施例對不同模態訊息的語意特徵和注意力特徵分別進行處理，可以减少跨模態訊息檢索過程中對特徵提取質量的依賴程度，並且方法簡單，時間複雜度較低，可以提高跨模態訊息檢索的效率。

在本發明被詳細描述之前，應當注意在以下的說明內容中，類似的元件是以相同的編號來表示。

參閱圖1與圖2，本發明之一實施例的跨模態訊息檢索方案，可以分別獲取一第一模態訊息和一第二模態訊息，根據該第一模態訊息的模態特徵確定該第一模態訊息的第一語意特徵和第一注意力特徵，以及，根據該第二模態訊息的模態特徵確定該第二模態訊息的第二語意特徵和第二注意力特徵，由於該第一模態訊息和該第二模態訊息是不同模態的訊息，可以對該第一模態訊息和該第二模態訊息的語意特徵和注意力特徵並行進行處理，然後可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。通過這種方式，注意力特徵可以從模態訊息的語意特徵中分離出來，並作爲單獨的特徵進行處理，同時，可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度，提高跨模態訊息檢索的效率。

下面，結合附圖對本公開實施例提供的跨模態訊息檢索方案進行詳細說明。

參閱圖1，該實施例的跨模態訊息檢索方法的流程圖。如圖1所示，該方法包括：

步驟11，獲取該第一模態訊息和該第二模態訊息。

在本公開實施例中，檢索裝置（例如，檢索軟體、檢索平臺…等檢索裝置）可以獲取一第一模態訊息或一第二模態訊息。例如，檢索設備獲取用戶設備傳輸的該第一模態訊息或該第二模態訊息；再例如，檢索設備根據用戶操作獲取該第一模態訊息或該第二模態訊息。檢索平臺還可以在數據庫中獲取該第一模態訊息或該第二模態訊息。這裡，該第一模態訊息和該第二模態訊息爲不同模態的訊息，例如，該第一模態訊息可以包括文本訊息或圖像訊息中的一種模態訊息，該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。這裡的該第一模態訊息和該第二模態訊息不僅限於圖像訊息和文本訊息，還可以包括語音訊息、視頻訊息和光信號訊息等。這裡的模態可以理解爲訊息的種類或者存在形式。該第一模態訊息和該第二模態訊息可爲不同模態的訊息。

步驟12，根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵。

這裡，檢索裝置在獲取該第一模態訊息之後，可以確定該第一模態訊息的模態特徵。該第一模態訊息的模態特徵可以形成第一模態特徵向量，然後可以根據第一模態特徵向量確定該第一模態訊息的第一語意特徵和第一注意力特徵。其中，第一語意特徵可以包括第一分語意特徵和第一和語意特徵；第一注意力特徵包括第一分注意力特徵和第一和注意力特徵。第一語意特徵可以表徵該第一模態訊息的語意，第一注意力特徵可以表徵該第一模態訊息的注意力。這裡的注意力可以理解爲在對模態訊息進行處理時，對模態訊息中某部分的訊息單元投入的處理資源。例如，以文本訊息爲例，文本訊息中的名詞，如“紅色”、“襯衫”，相比於文本訊息中的連詞，如“和”、“或者”，可以具有更多的注意力。

圖2示出該實施例的確定第一語意特徵和第一注意力特徵的流程圖。在一種可能的實現方式中，在根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵時，可以包括以下步驟：步驟121，將該第一模態訊息劃分爲至少一個訊息單元；步驟122，在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；步驟123，基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；步驟124，基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。

這裡，在確定該第一模態訊息的第一語意特徵和第一注意力特徵時，可以將該第一模態訊息劃分多個訊息單元。在劃分時，可以按照預設的訊息單元尺寸對該第一模態訊息進行劃分，每一訊息單元的尺寸相等。或者，還將該第一模態訊息劃分爲尺寸不同的多個訊息單元。例如，在該第一模態訊息爲圖像訊息的情况下，可以將一個圖像劃分爲多個圖像單元。在將一模態訊息劃分爲多個訊息單元之後，可以對每一訊息單元進行第一模態特徵提取，得到每一訊息單元的第一模態特徵。每一訊息單元的第一模態特徵可以形成一個第一模態特徵向量。然後可以將第一模態特徵向量轉變爲語意特徵空間的第一分語意特徵向量，以及將第一模態特徵向量轉變爲注意力空間的第一分注意力特徵。

在一種可能的實現方式中，可以根據該第一模態訊息的第一分語意特徵確定第一和語意特徵，以及，根據該第一模態訊息的第一分注意力特徵確定第一和語意特徵。這裡，該第一模態訊息可以包括多個訊息單元。第一分語意特徵可以表示該第一模態訊息的每一訊息單元對應的語意特徵，第一和語意特徵可以表示該第一模態訊息對應的語意特徵。第一分注意力特徵可以表示該第一模態訊息的每一訊息單元對應的注意力特徵，第一和注意力特徵可以表示該第一模態訊息對應的注意力特徵。

圖3示出該實施例的跨模態訊息檢索過程的示意圖。舉例來說，以該第一模態訊息爲圖像訊息爲例，檢索裝置獲取圖像訊息之後，可以將圖像訊息劃分爲多個圖像單元，然後可以利用卷積神經網路（CNN）模型對每一圖像單元的圖像特徵進行提取，生成每一圖像單元的圖像特徵向量（第一模態特徵的示例）。圖像單元的圖像特徵向量可以表示爲公式（1）：

（1）；

其中，R爲圖像單元的個數，d爲圖像特徵向量的維數，

爲第i個圖像單元的圖像特徵向量，

表示爲實數矩陣。對圖像訊息而言，圖像訊息對應的圖像特徵向量可以表示爲公式（2）：

（2）。

然後對每一圖像單元的圖像特徵向量進行線性映射，可以得到圖像訊息的第一分語意特徵，相應地線性映射函數可以表示爲W_v ，圖像訊息的第一分語意特徵對應的第一分語意特徵向量可以表示爲公式（3）：

（3）。

相應地，對

進行相同的線性映射之後，可以得到圖像訊息的第一和語意特徵形成的第一和語意特徵向量

。

相應地，檢索裝置可以對每一圖像單元的圖形特徵向量進行線性映射，得到圖像訊息的第一分注意力特徵，進行注意力特徵映射的線性函數可以表示爲U_v ，圖像訊息的第一分注意力特徵對應的第一分注意力特徵向量可以表示爲公式（4）：

（4）。

相應地，對

進行相同的線性映射之後，可以得到圖像訊息的第一和注意力特徵

。

步驟13，根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵。

這裡，檢索裝置在獲取該第二模態訊息之後，可以確定該第二模態訊息的模態特徵。該第二模態訊息的模態特徵可以形成第二模態特徵向量，然後檢索裝置可以根據第二模態特徵向量確定該第二模態訊息的第二語意特徵和第二注意力特徵。其中，第二語意特徵可以包括第二分語意特徵和第二和語意特徵；第二注意力特徵包括第二分注意力特徵和第二和注意力特徵。第二語意特徵可以表徵該第二模態訊息的語意，第二注意力特徵可以表徵該第二模態訊息的注意力。其中，第一語意特徵與第二語意特徵對應的特徵空間可以相同。

圖4示出該實施例的確定第二語意特徵和第二注意力特徵的流程圖。在一種可能的實現方式中，在根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵時，可以包括以下步驟：步驟131，將該第二模態訊息劃分爲至少一個訊息單元；步驟132，在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；步驟133，基於每一所述訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；步驟134，基於每一所述訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。

這裡，在確定該第二模態訊息的第二語意特徵和第二注意力特徵時，可以該第二模態訊息劃分多個訊息單元。在劃分時，可以按照預設的訊息單元尺寸對該第二模態訊息進行劃分，每一訊息單元的尺寸相等。或者，還將該第二模態訊息劃分爲尺寸不同的多個訊息單元。例如，在該第二模態訊息爲文本訊息的情况下，可以將一文本中的每一單詞劃分爲一個文本單元。在將該第二模態訊息劃分爲多個訊息單元之後，可以對每一訊息單元進行第二模態特徵提取，得到每一訊息單元的第二模態特徵。每一訊息單元的第二模態特徵可以形成一個第二模態特徵向量。然後可以將第二模態特徵向量轉變爲語意特徵空間的第二分語意特徵向量，以及將第二模態特徵向量轉變爲注意力空間的第二分注意力特徵。這裡，第二語意特徵對應的語意特徵空間與第一語意特徵對應的語意特徵空間相同，這裡的特徵空間相同可以理解爲特徵對應的特徵向量維數相同。

在一種可能的實現方式中，可以根據該第二模態訊息的第二分語意特徵確定第二和語意特徵，以及，根據該第二模態訊息的第二分注意力特徵確定第二和注意力特徵。這裡，該第二模態訊息可以包括多個訊息單元。第二分語意特徵可以表示該第二模態訊息的每一訊息單元對應的語意特徵，第二和語意特徵可以表示該第二模態訊息對應的語意特徵。第二分注意力特徵可以表示該第二模態訊息的每一訊息單元對應的注意力特徵，第二和注意力特徵可以表示該第二模態訊息對應的注意力特徵。

如圖3所示，以該第二模態訊息爲文本訊息爲例，檢索裝置獲取文本訊息之後，可以將文本訊息劃分爲多個文本單元，例如將文本訊息中每一單詞作爲一個文本單元。然後可以利用遞歸神經網路（GRU）模型對每一文本單元的文本特徵進行提取，生成每一文本單元的文本特徵向量（第二模態特徵的示例）。文本單元的文本特徵向量可以表示爲公式（5）：

（5）；

其中，T爲文本單元的個數，d爲文本特徵向量的維數，

爲第j個文本單元的文本特徵向量。對於文本訊息而言，整個文本訊息對應的文本特徵向量可以表示爲公式（6）：

（6）。

然後對每一文本單元的文本特徵向量進行線性映射，可以得到文本訊息的第二分語意特徵，相應的線性映射函數可以表示爲W_s ，文本訊息的第二語意特徵的第二語意特徵向量可以表示爲公式（7）：

（7）。

相應地，對

進行相同的線性映射之後，可以得到文本訊息的第二和語意特徵形成的第二和語意特徵向量

。

相應地，檢索裝置可以對每一文本單元的文本特徵向量進行線性映射，得到文本訊息的第二分注意力特徵，進行注意力特徵映射的線性函數可以表示爲U_s ，文本訊息的第二分注意力特徵對應的第二分注意力特徵向量可以表示爲公式（8）：

（8）。

相應地，對

進行相同的線性映射之後，可以得到文本訊息的第二和注意力特徵形成的第二和注意力特徵向量

。

步驟14，基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。

在本公開實施例中，檢索裝置可以根據該第一模態訊息的第一注意力特徵和該第二模態訊息的第二注意力特徵，確定該第一模態訊息與該第二模態訊息相互關注的關注程度。然後若結合第一語意特徵，則可以確定該第二模態訊息對於該第一模態訊息關注的語意特徵；若結合第二語意特徵，則可以確定該第一模態訊息對於該第二模態訊息關注的語意特徵。這樣，可以根據該第二模態訊息對於該第一模態訊息關注的語意特徵以及該第一模態訊息對於該第二模態訊息關注的語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。在確定該第一模態訊息和該第二模態訊息的相似度時，可以通過計算餘弦距離或者通過點積操作的方式確定該第一模態訊息和該第二模態訊息的相似度。

在一種可能的實現方式中，在確定該第一模態訊息和該第二模態訊息的相似度時，可以根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息。然後根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息。再根據第一注意力訊息和第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。

這裡，在根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息時，可以先根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息。然後根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。

相應地，在根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息時，可以根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息。然後根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。

結合圖3，對上述確定該第一模態訊息和該第二模態訊息的相似度的過程進行詳細說明。以該第一模態訊息爲圖像訊息、該第二模態訊息文本訊息爲例，在得到圖像訊息的第一分語意特徵向量

、第一和語意特徵向量

、第一分注意力特徵向量

和第一和注意力特徵向量

，以及得到本文訊息的第二分語意特徵向量

、第二和語意特徵向量

、第二分注意力特徵向量

和第二和注意力特徵向量

之後，可以先利用

和

確定文本訊息對圖像訊息的每一圖像單元注意力訊息，然後再結合

，確定文本訊息對圖像訊息注意的語意特徵，即確定文本訊息對於圖像訊息的第一注意力訊息。第一注意力訊息可以通過以下公式（9）所示的方式進行確定：

（9）；

其中，A 可以表示注意力操作，softmax 可以表示歸一化指數函數。

可以表示控制參數，可以控制注意力的大小。這樣，可以使得到的注意力訊息在合適的大小範圍。

相應地，第二注意力訊息可以通過以下公式（10）所示的方式進行確定：

（10）；

其中，A可以表示注意力操作，softmax 可以表示歸一化指數函數。

可以表示控制參數。

在得到第一注意力訊息和第二注意力訊息之後，可以計算圖像訊息和文本訊息的相似度。相似度計算公式（11）可表示如下：

（11）；

其中，

=

；其中，

表示取範數操作。通過上述公式，可以得到該第一模態訊息和該第二模態訊息的相似度。通過上述跨模態訊息檢索的方式，注意力特徵可以從模態訊息的語意特徵中分離出來，並作爲單獨的特徵進行處理，並且可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度，提高跨模態訊息檢索的效率。

圖5示出根據該實施例的根據相似度確定檢索結果爲匹配的示意圖。該第一模態訊息和該第二模態訊息可以分別爲圖像訊息和文本訊息。由於跨模態訊息檢索過程中的注意力機制，會使得跨模態訊息在檢索過程中，圖像訊息更加注意文本訊息中對應的文本單元，文本訊息更加注意圖像訊息中對應的圖像單元。如圖5所示，圖像訊息中突出了“女性”和“手機”的圖像單元，文本訊息中突出了“女性”和“手機”的文本單元。

通過上述跨模態訊息檢索的方式，本公開實施例還提供了一種跨模態訊息檢索的應用實例。圖6示出根據該實施例的跨模態訊息檢索的流程圖。該第一模態訊息可以爲第一模態的待檢索訊息，該第二模態訊息可以爲第二模態的預存訊息，該跨模態訊息檢索方法可以包括：步驟61，獲取該第一模態訊息和該第二模態訊息；步驟62，根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；步驟63，根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；步驟64，基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度；步驟65，在所述相似度滿足預設條件的情况下，將該第二模態訊息作爲該第一模態訊息的檢索結果。

這裡，檢索裝置可以獲取用戶輸入的該第一模態訊息，然後可以在資料庫中獲取該第二模態訊息。在通過上述步驟確定該第一模態訊息與該第二模態訊息的相似度滿足預設條件的情况下，可以將該第二模態訊息作爲該第一模態訊息的檢索結果。

在一種可能的實現方式中，該第二模態訊息爲多個，在將該第二模態訊息作爲該第一模態訊息的檢索結果時，可以根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果。然後根據該第二模態訊息的排序結果，可以確定相似度滿足預設條件的該第二模態訊息。然後將相似度滿足預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。

這裡，預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。

舉例來說，在將該第二模態訊息作爲該第一模態訊息的檢索結果時，可以在第一檢索訊息與第二檢索訊息的相似度大於預設值時，將該第二模態訊息作爲該第一模態訊息的檢索結果。或者，在將該第二模態訊息作爲該第一模態訊息的檢索結果時，可以根據該第一模態訊息與每一第二模態訊息的相似度，按照相似度由小至大的順序爲多個該第二模態訊息進行排序，排序結果，然後根據排序結果，將排名大於預設排名的該第二模態訊息作爲該第一模態訊息的檢索結果。例如，將排名最高的該第二模態訊息作爲該第一模態訊息的檢索結果，即可以將相似度最大的該第二模態訊息作爲該第一模態訊息的檢索結果。這裡，檢索結果可以爲一個或多個。

這裡，在將該第二模態訊息作爲該第一模態訊息的檢索結果之後，還可以向用戶端輸出檢索結果。例如，可以向用戶端發送檢索結果，或者，在顯示界面上顯示檢索結果。

通過上述跨模態訊息檢索的方式，本公開實施例還提供了一種跨模態訊息檢索的訓練實例。該第一模態訊息可以爲第一模態的訓練樣本訊息，該第二模態訊息爲第二模態的訓練樣本訊息；每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。在訓練過程中，可以將每對訓練樣本對輸入跨模態訊息檢索模型，可以選擇卷積神經網路、循環神經網路或遞歸神經網路對該第一模態訊息或該第二模態訊息進行模態特徵提取。然後利用跨模態訊息檢索模型對該第一模態訊息的模態特徵進行線性映射，得到該第一模態訊息的第一語意特徵和第一注意力特徵，以及對該第二模態訊息的模態特徵進行線性映射，得到該第二模態訊息的第二語意特徵和第二注意力特徵。然後再利用跨模態訊息檢索模型由第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵，得到該第一模態訊息和該第二模態訊息的相似度。在得到多個訓練樣本對的相似度之後，可以利用損失函數得到跨模態訊息檢索模型的損失，例如，利用對比損失函數、最難負樣本排序損失函數等。然後可以利用得到的損失對跨模態訊息檢索模型的模型采參數進行調整，得到用於跨模態訊息檢索的跨模態訊息檢索模型。

通過上述跨模態訊息檢索模型訓練過程，注意力特徵可以從模態訊息的語意特徵中分離出來，並作爲單獨的特徵進行處理，並且可以在較低的時間複雜度內確定該第一模態訊息和該第二模態訊息的相似度，提高跨模態訊息檢索模型訊息檢索的效率。

圖7示出根據本公開實施例的一種跨模態訊息檢索裝置的方塊圖，如圖7所示，所述跨模態訊息檢索裝置，包括：一獲取模組71，用於獲取該第一模態訊息和該第二模態訊息；一第一確定模組72，用於根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；一第二確定模組73，用於根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；及一相似度確定模組74，用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。

在一種可能的實現方式中，所述第一語意特徵包括第一分語意特徵和第一和語意特徵；所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵；所述第二語意特徵包括第二分語意特徵和第二和語意特徵；所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。

在一種可能的實現方式中，所述第一確定模組72包括：一第一劃分子模組，用於將該第一模態訊息劃分爲至少一個訊息單元；一第一模態確定子模組，用於在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；一第一分語意提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；及一第一分注意力提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。

在一種可能的實現方式中，所述裝置還包括：一第一和語意確定子模組，用於根據每一訊息單元的第一分語意特徵，確定該第一模態訊息的第一和語意特徵；及一第一和注意力確定子模組，用於根據每一訊息單元的第一分注意力特徵，確定該第一模態訊息的第一和注意力特徵。

在一種可能的實現方式中，所述第二確定模組73包括：一第二劃分子模組，用於將該第二模態訊息劃分爲至少一個訊息單元；一第二模態確定子模組，用於在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；一第二分語意提取子模組，用於基於每一訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；一第二分注意力提取子模組，用於基於每一訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。

在一種可能的實現方式中，所述裝置還包括：一第二和語意確定子模組，用於根據每一訊息單元的第二分語意特徵，確定該第二模態訊息的第二和語意特徵；及一第二和注意力確定子模組，用於根據每一訊息單元的第二分注意力特徵，確定該第二模態訊息的第二和注意力特徵。

在一種可能的實現方式中，所述相似度確定模組74包括：一第一注意力訊息確定子模組，用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息；一第二注意力訊息確定子模組，用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息；及一相似度確定子模組，用於根據所述第一注意力訊息和所述第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。

在一種可能的實現方式中，所述第一注意力訊息確定子模組，具體用於，根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息；根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。

在一種可能的實現方式中，所述第二注意力訊息確定子模組，具體用於，根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息；根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。

在一種可能的實現方式中，該第一模態訊息爲第一模態的待檢索訊息，該第二模態訊息爲第二模態的預存訊息；所述裝置還包括：檢索結果確定模組，用於在所述相似度滿足預設條件的情况下，將該第二模態訊息作爲該第一模態訊息的檢索結果。

在一種可能的實現方式中，該第二模態訊息爲多個；所述檢索結果確定模組包括：排序子模組，用於根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果；訊息確定子模組，用於根據所述排序結果，確定滿足所述預設條件的該第二模態訊息；檢索結果確定子模組，用於將滿足所述預設條件的該第二模態訊息作爲該第一模態訊息的檢索結果。

在一種可能的實現方式中，所述預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。

在一種可能的實現方式中，所述裝置還包括：輸出模組，用於向用戶端輸出所述檢索結果。

在一種可能的實現方式中，該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息；該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。

在一種可能的實現方式中，該第一模態訊息爲第一模態的訓練樣本訊息，該第二模態訊息爲第二模態的訓練樣本訊息；每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。

可以理解，本公開提及的上述各個方法實施例，在不違背原理邏輯的情况下，均可以彼此相互結合形成結合後的實施例，限於篇幅，本公開不再贅述。

此外，本公開還提供了上述裝置、電子設備、計算機可讀儲存介質、程序，上述均可用來實現本公開提供的任一種跨模態訊息檢索方法，相應技術方案和描述和參見方法部分的相應記載，不再贅述。

圖8是根據一示例性實施例示出的一種用於跨模態訊息檢索的跨模態訊息檢索裝置1900的方塊圖。例如，跨模態訊息檢索裝置1900可以被提供爲一服務器。參照圖8，跨模態訊息檢索裝置1900包括處理模組1922，其進一步包括一個或多個處理器，以及由記憶體模組1932所代表的記憶體模組資源，用於儲存可由處理模組1922的執行的指令，例如應用程序。記憶體模組1932中儲存的應用程序可以包括一個或一個以上的每一個對應於一組指令的模組。此外，處理模組1922被配置爲執行指令，以執行上述方法。

跨模態訊息檢索裝置1900還可以包括一個電源模組1926被配置爲執行跨模態訊息檢索裝置1900的電源管理，一個有線或無線網路接頭1950被配置爲將跨模態訊息檢索裝置1900連接到網路，和一個輸入輸出（I/O）接頭1958。跨模態訊息檢索裝置1900可以操作基於儲存在記憶體模組1932的操作系統，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM或類似。

在示例性實施例中，還提供了一種非易失性計算機可讀儲存介質（non-volatile memory），例如包括計算機程序指令的記憶體模組1932，上述計算機程序指令可由跨模態訊息檢索裝置1900的處理模組1922執行以完成上述方法。

本公開可以是系統、方法和/或計算機程序産品。計算機程序産品可以包括計算機可讀儲存介質，其上載有用於使處理器實現本公開的各個方面的計算機可讀程序指令。

計算機可讀儲存介質可以是可以保持和儲存由指令執行設備使用的指令的有形設備。計算機可讀儲存介質例如是電儲存設備、磁儲存設備、光儲存設備、電磁儲存設備、半導體儲存設備或者上述的任意合適的組合。計算機可讀儲存介質的更具體的例子（非窮舉的列表）包括：可携式計算機盤、硬碟、隨機存取記憶體模組（RAM）、唯讀記憶體模組（ROM）、可編程唯讀記憶體模組（EPROM或快閃記憶體）、靜態隨機存取記憶體模組（SRAM）、光碟（CD-ROM）、記憶卡、機械編碼設備。這裡所使用的計算機可讀儲存介質不被解釋爲瞬時信號本身，諸如無線電波或者其他自由傳播的電磁波、通過波導或其他傳輸媒介傳播的電磁波（例如，通過光纖電纜的光脈衝）、或者通過電線傳輸的電信號。

這裡所描述的計算機可讀程序指令可以從計算機可讀儲存介質下載到各個計算/處理設備，或者通過網路、廣域網和/或無線網下載到外部計算機或外部儲存設備。網路可以包括銅傳輸電纜、光纖傳輸、無線傳輸、路由器、防火牆、交換機、網關計算機和/或邊緣服務器。每一計算/處理設備中的網路卡或者網路接頭從網路接收計算機可讀程序指令，並轉發該計算機可讀程序指令，以供儲存在各個計算/處理設備中的計算機可讀儲存介質中。

用於執行本公開操作的計算機程序指令可以是彙編指令、指令集架構（ISA）指令、機器指令、機器相關指令、微代碼、固件指令、狀態設置數據、或者以一種或多種編程語言的任意組合編寫的源代碼或目標代碼，所述編程語言包括面向對象的編程語言—諸如Smalltalk、C++等，以及常規的過程式編程語言—諸如“C”語言或類似的編程語言。計算機可讀程序指令可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作爲一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中，遠程計算機可以通過任意種類的網路—包括區域網路（LAN）或廣域網路（WAN）—連接到用戶計算機，或者，可以連接到外部計算機（例如利用網際網路服務提供商來通過網際網路）。在一些實施例中，通過利用計算機可讀程序指令的狀態訊息來個性化定制電子電路，例如可編程邏輯電路、現場可編程陣列（FPGA）或可編程邏輯陣列（PLA），該電子電路可以執行計算機可讀程序指令，從而實現本公開的各個方面。

這裡參照根據本公開實施例的方法、裝置（系統）和計算機程序産品的流程圖和/或方塊圖描述了本公開的各個方面。應當理解，流程圖和/或方塊圖的每一方框以及流程圖和/或方塊圖中各方框的組合，都可以由計算機可讀程序指令實現。

這些計算機可讀程序指令可以提供給通用計算機、專用計算機或其它可編程數據處理裝置的處理器，從而生産出一種機器，使得這些指令在通過計算機或其它可編程數據處理裝置的處理器執行時，産生了實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的裝置。也可以把這些計算機可讀程序指令儲存在計算機可讀儲存介質中，這些指令使得計算機、可編程數據處理裝置和/或其他設備以特定方式工作，從而，儲存有指令的計算機可讀介質則包括一個製造品，其包括實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作的各個方面的指令。

也可以把計算機可讀程序指令加載到計算機、其它可編程數據處理裝置、或其它設備上，使得在計算機、其它可編程數據處理裝置或其它設備上執行一系列操作步驟，以産生計算機實現的過程，從而使得在計算機、其它可編程數據處理裝置、或其它設備上執行的指令實現流程圖和/或方塊圖中的一個或多個方框中規定的功能/動作。

附圖中的流程圖和方塊圖顯示了根據本公開的多個實施例的系統、方法和計算機程序産品的可能實現的體系架構、功能和操作。在這點上，流程圖或方塊圖中的每一方框可以代表一個模組、程序段或指令的一部分，所述模組、程序段或指令的一部分包含一個或多個用於實現規定的邏輯功能的可執行指令。在有些作爲替換的實現中，方框中所標注的功能也可以以不同於附圖中所標注的順序發生。例如，兩個連續的方框實際上可以基本並行地執行，它們有時也可以按相反的順序執行，這依所涉及的功能而定。也要注意的是，方塊圖和/或流程圖中的每一方框、以及方塊圖和/或流程圖中的方框的組合，可以用執行規定的功能或動作的專用的基於硬件的系統來實現，或者可以用專用硬件與計算機指令的組合來實現。

綜上所述，該實施例通過獲取該第一模態訊息和該第二模態訊息，根據該第一模態訊息的模態特徵可以分別確定該第一模態訊息的第一語意特徵和第一注意力特徵，並根據該第二模態訊息的模態特徵可以分別確定該第二模態訊息的第二語意特徵和第二注意力特徵，進而可以基於第一注意力特徵、第二注意力特徵、第一語意特徵以及第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。這樣，可以利用不同模態訊息的語意特徵和注意力特徵，得到不同模態訊息之間的相似度，相比於現有技術方案中過於特徵提取的質量而言，本公開實施例對不同模態訊息的語意特徵和注意力特徵分別進行處理，可以减少跨模態訊息檢索過程中對特徵提取質量的依賴程度，並且方法簡單，時間複雜度較低，可以提高跨模態訊息檢索的效率。

11～14:步驟 121～124:步驟 131～134:步驟 61～65:步驟 71:獲取模組 72:第一確定模組 73:第二確定模組 1900:跨模態訊息檢索裝置 1922:處理模組 1926:電源模組 1932:記憶體模組 1950:網路接頭 1958:輸入輸出接頭

本發明的其他的特徵及功效，將於參照圖式的實施方式中清楚地呈現，其中：圖1是本發明一實施例的跨模態訊息檢索方法的一流程圖；圖2是該實施例的確定第一語意特徵和第一注意力特徵的一流程圖；圖3是該實施例的跨模態訊息檢索過程的一示意圖；圖4是該實施例的確定第二語意特徵和第二注意力特徵的一流程圖；圖5是該實施例的根據相似度確定檢索結果爲匹配的一示意圖；圖6是該實施例的跨模態訊息檢索的一流程圖；圖7是該實施例的一種跨模態訊息檢索裝置的一方塊圖；及圖8是該實施例的一種跨模態訊息檢索裝置的一方塊圖。

11~14:步驟

Claims

一種跨模態訊息檢索方法，包含以下步驟：獲取第一模態訊息和第二模態訊息；根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；及基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。
如請求項1所述的跨模態訊息檢索方法，其中，所述第一語意特徵包括第一分語意特徵和第一和語意特徵，所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵，所述第二語意特徵包括第二分語意特徵和第二和語意特徵，所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
如請求項2所述的跨模態訊息檢索方法，其中，所述根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵的步驟，包括：將該第一模態訊息劃分為至少一個訊息單元；在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；及基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。。
如請求項3所述的跨模態訊息檢索方法，其中，根據每一訊息單元的第一分語意特徵，確定該第一模態訊息的第一和語意特徵，根據每一訊息單元的第一分注意力特徵，確定該第一模態訊息的第一和注意力特徵。
如請求項2所述的跨模態訊息檢索方法，其中，所述根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵的步驟，包括：將該第二模態訊息劃分為至少一個訊息單元；在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；基於每一所述訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；及基於每一所述訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。
如請求項5所述的跨模態訊息檢索方法，其中，根據每一訊息單元的第二分語意特徵，確定該第二模態訊息的第二和語意特徵，根據每一訊息單元的第二分注意力特徵，確定該第二模態訊息的第二和注意力特徵。
如請求項2所述的跨模態訊息檢索方法，其中，所述基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度的步驟，包括：根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息；根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息；及根據所述第一注意力訊息和所述第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。
如請求項7所述的跨模態訊息檢索方法，其中，所述根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息的步驟，包括：根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息；及根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
如請求項7所述的跨模態訊息檢索方法，其中，所述根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息的步驟，包括：根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息；及根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
如請求項1至9任一項所述的跨模態訊息檢索方法，其中，該第一模態訊息為第一模態的待檢索訊息，該第二模態訊息為第二模態的預存訊息；所述方法還包括：在所述相似度滿足預設條件的情况下，將該第二模態訊息作為該第一模態訊息的檢索結果。
如請求項10所述的跨模態訊息檢索方法，其中，該第二模態訊息為多個；所述在所述相似度滿足預設條件的情况下，將該第二模態訊息作為該第一模態訊息的檢索結果的步驟，包括：根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果；根據所述排序結果，確定滿足所述預設條件的該第二模態訊息；及將滿足所述預設條件的該第二模態訊息作為該第一模態訊息的檢索結果。
如請求項11所述的跨模態訊息檢索方法，其中，所述預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。
如請求項10所述的跨模態訊息檢索方法，其中，所述將該第二模態訊息作為該第一模態訊息的檢索結果之後，還包括：向用戶端輸出所述檢索結果。
如請求項1至9任意一項所述的跨模態訊息檢索方法，其中，該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息；該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
如請求項1至9任意一項所述的跨模態訊息檢索方法，其中，該第一模態訊息為第一模態的訓練樣本訊息，該第二模態訊息為第二模態的訓練樣本訊息；每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
一種跨模態訊息檢索裝置，其中，所述裝置包括：一獲取模組，用於獲取第一模態訊息和第二模態訊息；一第一確定模組，用於根據該第一模態訊息的模態特徵，確定該第一模態訊息的第一語意特徵和第一注意力特徵；一第二確定模組，用於根據該第二模態訊息的模態特徵，確定該第二模態訊息的第二語意特徵和第二注意力特徵；及一相似度確定模組，用於基於所述第一注意力特徵、所述第二注意力特徵、所述第一語意特徵以及所述第二語意特徵，確定該第一模態訊息和該第二模態訊息的相似度。
如請求項16所述的跨模態訊息檢索裝置，其中，所述第一語意特徵包括第一分語意特徵和第一和語意特徵；所述第一注意力特徵包括第一分注意力特徵和第一和注意力特徵；所述第二語意特徵包括第二分語意特徵和第二和語意特徵；所述第二注意力特徵包括第二分注意力特徵和第一和注意力特徵。
如請求項17所述的跨模態訊息檢索裝置，其中，所述第一確定模組包括：一第一劃分子模組，用於將該第一模態訊息劃分為至少一個訊息單元；一第一模態確定子模組，用於在每一訊息單元中進行第一模態特徵提取，確定每一訊息單元的第一模態特徵；一第一分語意提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取語意特徵空間的第一分語意特徵；及一第一分注意力提取子模組，用於基於每一所述訊息單元的第一模態特徵，提取注意力特徵空間的第一分注意力特徵。
如請求項18所述的跨模態訊息檢索裝置，其中，所述裝置還包括：一第一和語意確定子模組，用於根據每一訊息單元的第一分語意特徵，確定該第一模態訊息的第一和語意特徵；及一第一和注意力確定子模組，用於根據每一訊息單元的第一分注意力特徵，確定該第一模態訊息的第一和注意力特徵。
如請求項17所述的跨模態訊息檢索裝置，其中，所述第二確定模組包括：一第二劃分子模組，用於將該第二模態訊息劃分為至少一個訊息單元；一第二模態確定子模組，用於在每一訊息單元中進行第二模態特徵提取，確定每一訊息單元的第二模態特徵；一第二分語意提取子模組，用於基於每一訊息單元的第二模態特徵，提取語意特徵空間的第二分語意特徵；及一第二分注意力提取子模組，用於基於每一訊息單元的第二模態特徵，提取注意力特徵空間的第二分注意力特徵。
如請求項20所述的跨模態訊息檢索裝置，其中，所述裝置還包括：一第二和語意確定子模組，用於根據每一訊息單元的第二分語意特徵，確定該第二模態訊息的第二和語意特徵；及一第二和注意力確定子模組，用於根據每一訊息單元的第二分注意力特徵，確定該第二模態訊息的第二和注意力特徵。
如請求項17所述的跨模態訊息檢索裝置，其中，所述相似度確定模組包括：一第一注意力訊息確定子模組，用於根據該第一模態訊息的第一分注意力特徵、第一分語意特徵和該第二模態訊息的第二和注意力特徵，確定第一注意力訊息；一第二注意力訊息確定子模組，用於根據該第二模態訊息的第二分注意力特徵、第二分語意特徵和該第一模態訊息的第一和注意力特徵，確定第二注意力訊息；及一相似度確定子模組，用於根據所述第一注意力訊息和所述第二注意力訊息，確定該第一模態訊息與該第二模態訊息的相似度。
如請求項22所述的跨模態訊息檢索裝置，其中，所述第一注意力訊息確定子模組，具體用於，根據該第一模態訊息的第一分注意力特徵和該第二模態訊息的第二和注意力特徵，確定該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息；根據該第二模態訊息對於該第一模態訊息的每一訊息單元的注意力訊息和該第一模態訊息的第一分語意特徵，確定該第二模態訊息對於該第一模態訊息的第一注意力訊息。
如請求項22所述的跨模態訊息檢索裝置，其中，所述第二注意力訊息確定子模組，具體用於，根據該第二模態訊息的第二分注意力特徵和該第一模態訊息的第一和注意力特徵，確定該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息；根據該第一模態訊息對於該第二模態訊息的每一訊息單元的注意力訊息和該第二模態訊息的第二分語意特徵，確定該第一模態訊息對於該第二模態訊息的第二注意力訊息。
如請求項16至24任意一項所述的跨模態訊息檢索裝置，其中，該第一模態訊息為第一模態的待檢索訊息，該第二模態訊息為第二模態的預存訊息；所述裝置還包括：檢索結果確定模組，用於在所述相似度滿足預設條件的情况下，將該第二模態訊息作為該第一模態訊息的檢索結果。
如請求項25所述的跨模態訊息檢索裝置，其中，該第二模態訊息為多個；所述檢索結果確定模組包括：一排序子模組，用於根據該第一模態訊息與每一第二模態訊息的相似度，對多個該第二模態訊息進行排序，得到排序結果；一訊息確定子模組，用於根據所述排序結果，確定滿足所述預設條件的該第二模態訊息；及一檢索結果確定子模組，用於將滿足所述預設條件的該第二模態訊息作為該第一模態訊息的檢索結果。
如請求項26所述的跨模態訊息檢索裝置，其中，所述預設條件包括以下任一條件：相似度大於預設值；相似度由小至大的排名大於預設排名。
如請求項25所述的跨模態訊息檢索裝置，其中，所述裝置還包括：一輸出模組，用於向用戶端輸出所述檢索結果。
如請求項16至24任意一項所述的跨模態訊息檢索裝置，其中，該第一模態訊息包括文本訊息或圖像訊息中的一種模態訊息；該第二模態訊息包括文本訊息或圖像訊息中的一種模態訊息。
如請求項16至24任意一項所述的跨模態訊息檢索裝置，其中，該第一模態訊息為第一模態的訓練樣本訊息，該第二模態訊息為第二模態的訓練樣本訊息；每一第一模態的訓練樣本訊息與第二模態的訓練樣本訊息形成訓練樣本對。
一種跨模態訊息檢索裝置，其中，包括：一處理器；及一用於儲存處理器可執行指令的記憶體模組；其中，所述處理器被配置為執行記憶體模組儲存的可執行指令時，實現權利要求1至15中任意一項所述的跨模態訊息檢索方法。
一種非易失性計算機可讀儲存介質，其上儲存有計算機程序指令，其中，所述計算機程序指令被處理器執行時實現權利要求1至15中任意一項所述的跨模態訊息檢索方法。