JP2021184237A

JP2021184237A - データセット処理方法、装置、電子機器及び記憶媒体

Info

Publication number: JP2021184237A
Application number: JP2020216062A
Authority: JP
Inventors: ヂェフ—，; Zhe Hu; ヂェフ―，; チョンポン，; Cheng Peng; シェーフォンルオ，; Xuefeng Luo
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-05-20
Filing date: 2020-12-25
Publication date: 2021-12-02
Anticipated expiration: 2040-12-25
Also published as: EP3913499A1; JP7126542B2; KR20210075036A; KR102532396B1; US20210365444A1; CN111709247B; CN111709247A; US11663258B2

Abstract

【課題】データセットの有効性を向上させ、マッチングモデルのロバスト性を向上させるデータセット処理方法、装置、電子機器及び記憶媒体を提供する。【解決手段】データセット処理方法は、ターゲットユーザから提供された複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し１０１、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し１０２、第２のテキストセット内のコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し１０３、ターゲットテキストブロックのコンテンツに基づいてポジティブサンプルセットを生成し１０４、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、マッチングモデルをトレーニングしてテキスト類似度を認識する１０５。【選択図】図１

Description

本願はデータ処理分野の自然言語処理分野に関し、特にデータセット処理方法、装置、電子機器及び記憶媒体に関する。

通常、ユーザがクエリセンテンスを入力し、検索システムを用いてデータベース内でいくつかの類似する問題を検索すると、これらの候補項をより正確で、柔軟なモデルで再ソートすることで、最終的な解答を得る。

上記再ソートのプロセスでは、類似度マッチングモデルにより２つのテキスト間の意味的な類似度を計算する。例えば、ユーザが「クレジットカードを申請したい」というクエリセンテンスを入力すると、類似度マッチングモデルは候補項から「クレジットカードを申請するにはどうすればよいか」を的確にマッチングする必要があるため、類似度マッチングモデルを生成するためには大規模で高品質なトレーニングデータが必要となる。

関連技術では、トレーニングデータセットのネガティブサンプルとして異なる意味を有するテキストをランダムに選択することもある。しかし、生成されたネガティブサンプルの方式は比較的簡単であり、不正確な場合がある。

本願はデータセット処理方法、装置、電子機器及び記憶媒体を提供する。

第１の態様にて提供されるデータセット処理方法は、ターゲットユーザから提供された複数のテキストブロックを取得し、ただし、各テキストブロックには、類似する意味を有する複数のテキストが含まれ、前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得するステップと、前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得するステップと、前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成するステップと、前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成するステップと、前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成し、前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識するステップと、を含む。

第２の態様にて提供されるデータセット処理装置は、ターゲットユーザから提供された複数のテキストブロックを取得することに用いられ、ただし、各テキストブロックには、類似する意味を有する複数のテキストが含まれる第１の取得モジュールと、前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得することに用いられる第２の取得モジュールと、前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得することに用いられる第３の取得モジュールと、前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することに用いられる第１の生成モジュールと、前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成することに用いられる第２の生成モジュールと、前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成することに用いられる第３の生成モジュールと、前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識することに用いられる認識モジュールと、を含む。

本願の第３の態様の実施例にて提供される電子機器は、少なくとも１つのプロセッサと、前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドが前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが第１の態様の実施例に記載のデータセット処理方法を実行する。

本願の第４の態様の実施例は、コンピュータコマンドが記憶された非一時的なコンピュータ読み取り可能な記憶媒体を提供し、前記コンピュータコマンドが実行される場合、第１の態様の実施例に記載のデータセット処理方法が実行される。
本願の第５の態様の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムにおける命令が実行される場合に、第１の態様の実施例に記載のデータセット処理方法が実行される。

上記の出願における一実施例は次の利点又は有益な効果を有し、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれ、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成し、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。これにより、ランダムサンプリングにおける偽サンプル及びデータが比較的簡単であるという技術的問題を回避し、類似マッチング条件によってテキストセットをマッチングした後、さらにポジティブサンプルセットとネガティブサンプルセットを取得してデータセットを生成するので、データセットの有効性を向上させ、さらにマッチングモデルのロバスト性を向上させる。

このセクションに記載されている内容は本開示の実施例のキー特徴又は重要な特徴を特定することを意図するものでも、本開示の範囲を限定することを意図するものでもないことを理解されたい。本開示の他の特徴は、以下の説明によって容易に理解されるであろう。

図面は本願をよりよく理解することに用いられ、本願を制限するものではない。
本願の第１の実施例にて提供されるデータセット処理方法のフローチャートである。本願の実施例にて提供されるテキストブロックの例示的な図である。本願の第２の実施例にて提供されるデータセット処理方法のフローチャートである。本願の第３の実施例にて提供されるデータセット処理方法のフローチャートである。本願の第４の実施例にて提供されるデータセット処理方法のフローチャートである。本願の第５の実施例にて提供されるデータセット処理方法のフローチャートである。本願の第６の実施例にて提供されるデータセット処理装置の構造概略図である。本願の第７の実施例にて提供されるデータセット処理装置の構造概略図である。本願の実施例によるデータセット処理方法を実現するための電子機器のブロック図である。

理解を容易にするために、以下は添付図面を参照しながら、本願の実施例の様々な詳細を含む本願の好適な実施例について説明するが、単なる例示と見なされるべきである。したがって、当業者が理解できるように、本願の範囲及び精神から逸脱することなく、本明細書に記載の実施例に対して様々な変更及び修正を行うことができる。同様に、以下の説明では、周知の機能及び構造については、明確さ及び簡潔さのために説明を省略する。

以下は、図面を参照して、本願の実施例に係るデータセット処理方法、装置、電子機器及び記憶媒体について説明する。

図１は、本願の第１の実施例にて提供されるデータセット処理方法のフローチャートである。

具体的には、従来形態では、トレーニングデータセットのネガティブサンプルとして異なる意味を有するテキストをランダムに選択するため、生成されたネガティブサンプルの方式は比較的簡単であり、不正確な場合がある。

本願にて提供されるデータセット処理方法は、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれ、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成し、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。

これにより、ランダムサンプリングにおける偽サンプル及びデータが比較的簡単であるという技術的問題を回避し、類似マッチング条件によってテキストセットをマッチングした後、さらにポジティブサンプルセットとネガティブサンプルセットを取得してデータセットを生成するので、データセットの有効性を向上させ、さらにマッチングモデルのロバスト性を向上させる。

図１に示すように、該データセット処理方法はステップ１０１〜１０５を含んでもよい。

ステップ１０１では、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれ、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得する。

本願はターゲットユーザのデータセットを取得することでマッチングモデルをトレーニングしてテキスト類似度を認識し、それによってマッチングモデルの精度と安定性を向上させる。ターゲットユーザは１つ又は複数のサブユーザであってもよく、本願では、異なる分野の応用シーンに基づいてターゲットユーザとして１つのサブユーザであるか複数のサブユーザであるかを決定してもよい。

例を挙げると、例えば銀行分野では、異なる銀行機関間でクエリテキストに差異があり、ターゲットユーザは複数のサブユーザ、つまり複数の銀行機関である。例えば教育分野では、それぞれの教育機関間でクエリテキストにほとんど差異はなく、トレーニングの効率を向上させるために、ターゲットユーザは１つのサブユーザ、つまり１つの銀行機関であり、具体的には、実際の応用のニーズに応じて選択及び設定することができる。

具体的には、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれる。つまり、テキストデータは、多くの場合、類似する意味を有するテキストの一連のテキストブロックであり、各テキストブロック内のテキストは全て同じ意味を有する。例えば、図２に示すように、「クレジットカードを申請したい」と「クレジットカードを申請するにはどうすればよいか」の２つのテキストは同じテキストブロック１にあり、「クレジットカードの請求書を確認したい」と「クレジットカードの請求書はいくらであるか」は同じテキストブロック２にある。

理解できるように、各テキストブロック内のテキストは全て類似する意味を有する。ネガティブサンプルとして異なるテキストブロックから他のテキストをランダムにサンプリングし、２つのテキストの意味類似度が異なることをデフォルトする場合には、このようなランダムネガティブサンプリングの方式でいくつかの不正確なネガティブサンプルをサンプリングしやすい。

例を挙げると、「カードを申請したい」と「クレジットカードを申請したい」は、意味が類似する２つのテキストであり、「カードを申請したい」と「貯金カードを申請したい」は、意味が類似しない２つのテキストである。しかし「カードを申請したい」と「貯金カードを申請したい」は異なるテキストブロックに属するが、類似する意味をある程度有する可能性が高い。このようなネガティブサンプルは、トレーニングされたマッチングモデルの精度に大きな影響を与え、ランダムサンプリングによって生成されたネガティブサンプルは比較的簡単であるため、マッチングモデルが十分に正確な知識を学習できず、マッチングモデルの細粒度と精度にも影響を与える。

したがって、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットをさらに取得する必要がある。プリセット類似マッチング条件は１つ又は複数であってもよい。

例を挙げると、例えば、ネガティブサンプルとして類似する表現形態を有するが異なる意味情報を有するサンプルを選択するため、２つのテキストが高いワードオーバーラップを有することをプリセット類似マッチング条件とする。例えば、２つのテキストが高い意味類似度を有することをプリセット類似マッチング条件とするなど、実際の応用のニーズに応じて選択及び設定することができる。以下に例を示す。

第１の例として、ターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成し、複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成し、第１のワードセグメンテーションセットを各第２のワードセグメンテーションセットと比較し、第１のワードセグメンテーションセットと各第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得し、第１のワードセグメンテーションセットと各第２のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、閾値より大きいワードセグメンテーション重複度に対応する第２のワードセグメンテーションセットに基づいて第１のテキストセットを生成する。

第２の例として、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得、複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得、ターゲットセンテンスベクトルと各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算し、コサイン類似度をプリセットコサイン閾値と比較し、プリセットコサイン閾値より大きいテキストに基づいて第１のテキストセットを生成する。

ターゲットテキストは、複数のテキストブロック内の各テキストがデータセット構築のためのターゲットテキストとして使用されてもよく（つまり、各テキストをトラバースする）、複数のテキストブロック内のテキストの一部がデータセット構築のターゲットテキストとして使用されてもよい。具体的には実際の応用シーンに応じて選択及び設定することができるので、トレーニングされたモデルの精度を保証し、トレーニング効率を向上させる。

ステップ１０２では、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得する。

ステップ１０３では、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成する。

具体的には、プリセット類似マッチング条件を満たす第１のテキストセットの各テキストは、複数のテキストブロックに属し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得する必要があるが、応用シーンに応じて選択及び設定することができる。以下に例を示す。

一例として、ターゲットテキストに対応するブロック識別子を取得し、第１のテキストセット内の各テキストが属するブロック識別子を取得し、各テキストが属するブロック識別子をターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて第２のテキストセットを生成する。

最後に、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、可能な一実現形態として、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得し、各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成し、異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成し、第１のネガティブサンプルセットと第２のネガティブサンプルセットに基づいてターゲットテキストのネガティブサンプルセットを生成する。

ステップ１０４では、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成する。

具体的には、ターゲットテキストにはテキストブロック識別子があるため、テキストブロック識別子に応じてターゲットテキストブロックを決定し、ターゲットテキストブロックのコンテンツ、つまりターゲットテキストブロック内の複数のテキストをさらに取得し、ターゲットテキストブロック内の複数のテキストを組み合わせてターゲットテキストのポジティブサンプルセットを生成することができる。

当然のことながら、ターゲットテキストブロック内の複数のテキストを取得した後、第２のテキストセットにマッチングする複数のテキストをターゲットテキストのポジティブサンプルセットとして生成してもよい。

ステップ１０５では、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。

具体的には、ターゲットユーザに１つのサブユーザが含まれる応用シーンでは、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成してもよい。ターゲットユーザに複数のサブユーザが含まれる応用シーンでは、各サブユーザから提供された複数のテキストブロックを取得し、ネガティブサンプルセットとポジティブサンプルセットに基づいて各サブユーザに対応するサブデータセットを生成し、各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成し、プリセット重複排除戦略に従って候補データセットを重複排除してターゲットユーザのデータセットを生成する必要があるので、データセットの分野汎用性と適用性を向上させ、特定の分野におけるタスクダイアログで優れた効果を達成することができる。

最後に、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する方式は様々であるので、必要に応じて選択及び設定してもよい。以下に例を示す。

第１の例として、第１のクエリセンテンス及び第２のクエリセンテンスを取得し、第１のクエリセンテンスをコードして第１のクエリベクトルを生成し、第２のクエリセンテンスをコードして第２のクエリベクトルを生成し、第１のクエリベクトルと第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリを出力し、マッチングカテゴリに応じて第１のクエリセンテンスと第２のクエリセンテンスのテキスト類似度を決定する。

例を挙げると、例えば、第１のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力しかつ第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ２を出力する場合、マッチングカテゴリ１とマッチングカテゴリ２は異なるため、第１のクエリセンテンスと第２のクエリセンテンスのテキストが類似しないと決定する。例えば、第１のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力しかつ第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力する場合、マッチングカテゴリ１とマッチングカテゴリ１は同じであるため、第１のクエリセンテンスと第２のクエリセンテンスのテキストが類似すると決定する。

第２の例として、第１のクエリセンテンス及び第２のクエリセンテンスを取得し、第１のクエリセンテンスと第２のクエリセンテンスにマッチングモデルを入力してセンテンスを整列し、整列結果に基づいて第１のクエリセンテンスと第２のクエリセンテンスのテキスト類似度を決定する。

例を挙げると、第１のクエリセンテンスと第２のクエリセンテンスにマッチングモデルを入力してセンテンスを整列し、整列比率が９５％である場合には、プリセット閾値の９０％より大きく、したがって、第１のクエリセンテンスと第２のクエリセンテンスが類似すると決定する。そうでない場合には、類似しないと決定する。

本願の実施例にて提供されるデータセット処理方法は、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれる。複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成し、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。これにより、ランダムサンプリングにおける偽サンプル及びデータが比較的簡単であるという技術的問題を回避し、類似マッチング条件によってテキストセットをマッチングした後、さらにポジティブサンプルセットとネガティブサンプルセットを取得してデータセットを生成し、データセットの有効性を向上させ、さらにマッチングモデルのロバスト性を向上させる。

上記の実施例の説明に基づいて、理解できるように、異なるプリセット類似マッチング条件に基づいて取得された第１のテキストセットが異なるため、最後に構築されたデータセットも異なり、当業者が、ターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得する方法をより明確に把握するために、以下、図３及び図４を参照してワード頻度統計とセンテンスベクトルに基づいて計算及びマッチングすることを例として詳しく説明する。

具体的には、図３に示すように、ステップ１０１の後、さらにステップ２０１〜２０３を含む。

ステップ２０１では、ターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成し、複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成する。

ステップ２０２では、第１のワードセグメンテーションセットを各第２のワードセグメンテーションセットと比較し、第１のワードセグメンテーションセットと各第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得する。

ステップ２０３では、第１のワードセグメンテーションセットと各第２のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、閾値より大きいワードセグメンテーション重複度に対応する第２のワードセグメンテーションセットに基づいて第１のテキストセットを生成する。

具体的には、プリセットワードセグメンテーションアルゴリズムに従ってターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成する。つまり、第１のワードセグメンテーションセットにはターゲットテキストに対応する１つ又は複数のワードセグメンテーションが含まれ、複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成する。

第１のワードセグメンテーションセットを各第２のワードセグメンテーションセットと比較し、第１のワードセグメンテーションセットと各第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得する。ターゲットテキストと複数のテキストブロック内の各テキストの間のワードオーバーラップの具体的な状況は、ワードセグメンテーションの重複度によってすばやく理解することができる。プリセット閾値より大きいワードセグメンテーションの重複度に対応する第２のワードセグメンテーションセットを第１のテキストセットとして生成する。

つまり、ターゲットテキストと複数のテキストブロック内の各テキストの間のワードオーバーラップの数が一定の閾値より大きい場合にのみ、該テキストを第１のテキストセットのテキストとして決定する。それにより、類似する表現形態を有するが異なる意味情報を有するテキストを選択することができ、例えば「クレジットカードを申請したい」と「貯金カードを申請したい」の表現形態が近いが、実際には意味情報が異なるテキストであり、これらのテキストを後でトレーニングサンプルとすることで、モデルは意味情報とセンテンス表現形態の違いをよく区別することができる。

具体的には、図４に示すように、ステップ１０１の後、さらにステップ３０１〜３０４を含む。

ステップ３０１では、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得る。

ステップ３０２では、複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得る。

ステップ３０３では、ターゲットセンテンスベクトルと各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算する。

ステップ３０４では、コサイン類似度をプリセットコサイン閾値と比較し、プリセットコサイン閾値より大きいテキストに基づいて第１のテキストセットを生成する。

具体的には、モデルの安定性をさらに向上させるために、図３の実施例に基づいて取得されたテキストを第１のテキストセットとする以外に、意味類似度と組み合わせてテキストを取得して第１のテキストセットに加えることで、一定の意味類似性を有するが、往々にしてコンテンツが実際に同じではないテキストの選択を実現する。例えば、「クレジットカードを申請したい」と「申請したばかりのクレジットカードの請求書はいくらであるか」であり、これらのテキストを後でトレーニングサンプルとすることで、モデルは、より高い細粒度を持つ、かつ意味類似度をより正確に区別する程度まで学習できる。

具体的には、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得、ターゲットセンテンスベクトルと各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算し、プリセットコサイン閾値より大きいテキストに基づいて第１のテキストセットを生成する。ただし、リカレントニューラルネットワーク又は畳み込みニューラルネットワークを使用して事前に選択してテキストサンプルに対してトレーニングして生成することができる。

これにより、プリセットトレーニング言語表現モデルを使用すると、各ワードを独立した部分として扱うのではなく、テキスト全体のコンテキスト関係をより適切に特徴付けることができる。例を挙げると、「アップル」は、果物に関する意味環境と携帯電話に関する意味環境が全く異なるので、テキスト内のワードの順序とワードの依存関係を考慮し、トレーニングプロセス中に、テキスト全体のコンテキストに直面して、意味類似度計算の精度を向上させる。それによりマッチングモデルの認識結果を向上させる。

上記の実施例の説明に基づいて、さらに理解できるように、ターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得する場合のテキスト数は、必ずしも本願でデータセットを構築するためのプリセット数閾値ではなく、トレーニング効率を向上させるためには、さらなるスクリーニングが必要である。

具体的には、図５に示すように、ステップ１０１の後、さらにステップ４０１〜４０２を含む。

ステップ４０１では、第１のテキストセットのテキスト数を取得し、テキスト数がプリセット数閾値より大きいか否かを判断する。

ステップ４０２では、テキスト数がプリセット数閾値より大きい場合、テキスト数が数閾値と等しくなるように、数閾値に応じて第１のテキストセット内のテキストを削除する。

実際の応用の場面では、異なる応用シーンに応じて、異なる数閾値、つまり、トレーニングサンプルとして選択するテキストの量を設定することができる。したがって、第１のテキストセットのテキスト数を取得し、テキスト数がプリセット数閾値より大きいか否かを判断し、テキスト数がプリセット数閾値より大きい場合、テキスト数が数閾値と等しくなるように、数閾値に応じて第１のテキストセット内のテキストを削除する。削除処理はランダム削除であってもよく、これによりサンプルのランダム性をさらに向上させる。

図６は、本願の第５の実施例にて提供されるデータセット処理方法のフローチャートである。

ステップ５０１では、各サブユーザから提供された複数のテキストブロックを取得し、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得する。

具体的には、本実施はターゲットユーザに複数のサブユーザが含まれる応用シーンを対象とし、データセットの分野汎用性のために、各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成する必要があるため、プリセット重複排除戦略に従って候補データセットを重複排除してターゲットユーザのデータセットを生成する。

具体的には、各サブユーザから提供された複数のテキストブロックを取得し、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得する。プリセット類似マッチング条件は１つ又は複数であってもよく、例えば、ネガティブサンプルとして類似する表現形態を有するが異なる意味情報を有するサンプルを選択するために、２つのテキストが高いワードオーバーラップを有することをプリセット類似マッチング条件とし、例えば、２つのテキストが高い意味類似度を有することをプリセット類似マッチング条件とするなど、実際の応用のニーズに応じて選択及び設定することができる。

ステップ５０２では、ターゲットテキストに対応するブロック識別子を取得し、第１のテキストセット内の各テキストが属するブロック識別子を取得し、各テキストが属するブロック識別子をターゲットテキストに対応するブロック識別子と比較して、ブロック識別子が一致しないテキストに基づいて第２のテキストセットを生成する。

理解できるように、ターゲットテキストはブロック識別子を有し、第１のテキストセット内の各テキストが属するブロック識別子を取得し、各テキストが属するブロック識別子をターゲットテキストに対応するブロック識別子と比較する。例えば、ターゲットテキストのブロック識別子０１とテキスト１が属するブロック識別子が一致し、ターゲットテキストのブロック識別子０１とテキスト２が属するブロック識別子０２が一致しない場合には、テキスト２を第２のテキストセットに記憶することを決定する。

ステップ５０３では、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得し、各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成する。

ステップ５０４では、異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成し、第１のネガティブサンプルセットと第２のネガティブサンプルセットに基づいてターゲットテキストのネガティブサンプルセットを生成する。

具体的には、第２のテキストセットのテキストは、同じテキストブロック又は異なるテキストブロックに属する可能性があり、第２のテキストセットのテキストのブロック識別子に基づいて複数の候補テキストブロックを決定し、候補テキストブロック内の複数のテキストに基づいてテキストを組み合わせて第１のネガティブサンプルセットを生成し、さらに異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成し、第１のネガティブサンプルセットと第２のネガティブサンプルセットに基づいてターゲットテキストのネガティブサンプルセットを生成する。

それにより、各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成し、異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成し、最後にターゲットテキストのネガティブサンプルセットを生成することで、テキストのランダム性をさらに向上させ、それによりトレーニングサンプルのランダム性を向上させ、マッチングモデルの認識精度を向上させる。

ステップ５０５では、ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得し、ターゲットテキストブロック内の複数のテキストを組み合わせてターゲットテキストのポジティブサンプルセットを生成する。

具体的には、ターゲットテキストにはテキストブロック識別子があるため、テキストブロック識別子に応じてターゲットテキストブロックを決定することができる。さらにターゲットテキストブロックのコンテンツ、つまりターゲットテキストブロック内の複数のテキストを取得することができ、ターゲットテキストブロック内の複数のテキストを組み合わせてターゲットテキストのポジティブサンプルセットを生成する。

ステップ５０６では、各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成し、プリセット重複排除戦略に従って候補データセットを重複排除してターゲットユーザのデータセットを生成する。

具体的には、各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成し、プリセット重複排除戦略に従って候補データセットを重複排除してターゲットユーザのデータセットを生成する。プリセット重複排除戦略は異なる応用シーンのニーズに応じて選択することができ、例えば、候補データセット内の各テキストサンプルの重複度を直接検出し、重複するテキストサンプルを削除してターゲットユーザのデータセットを生成し、サンプルノイズを減らし、マッチングモデルの精度を向上させる。

ステップ５０７では、第１のクエリセンテンス及び第２のクエリセンテンスを取得し、第１のクエリセンテンスをコードして第１のクエリベクトルを生成し、第２のクエリセンテンスをコードして第２のクエリベクトルを生成する。

ステップ５０８では、第１のクエリベクトルと第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリを出力し、マッチングカテゴリに応じて第１のクエリセンテンスと第２のクエリセンテンスのテキスト類似度を決定する。

具体的には、第１のクエリセンテンス及び第２のクエリセンテンスを取得し、それぞれ第１のクエリセンテンスをコードして第１のクエリベクトルを生成し、第２のクエリセンテンスをコードして第２のクエリベクトルを生成し、さらに、第１のクエリベクトルと第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリを出力し、最後に、マッチングカテゴリに応じて第１のクエリセンテンスと第２のクエリセンテンスのテキスト類似度を決定する。

例を挙げると、例えば、第１のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力し、第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ２を出力する場合、マッチングカテゴリ１とマッチングカテゴリ２は異なるため、第１のクエリセンテンスと第２のクエリセンテンスのテキストが類似しないと決定する。例えば、第１のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力し、第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリ１を出力する場合、マッチングカテゴリ１とマッチングカテゴリ１は同じであるため、第１のクエリセンテンスと第２のクエリセンテンスのテキストが類似すると決定する。

これにより、各サブユーザから提供された複数のテキストブロックを取得し、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、ターゲットテキストに対応するブロック識別子を取得し、第１のテキストセット内の各テキストが属するブロック識別子を取得し、各テキストが属するブロック識別子をターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて第２のテキストセットを生成し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得し、各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成し、異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成し、第１のネガティブサンプルセットと第２のネガティブサンプルセットに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得し、ターゲットテキストブロック内の複数のテキストを組み合わせてターゲットテキストのポジティブサンプルセットを生成し、各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成し、プリセット重複排除戦略に従って候補データセットを重複排除してターゲットユーザのデータセットを生成し、第１のクエリセンテンス及び第２のクエリセンテンスを取得し、第１のクエリセンテンスをコードして第１のクエリベクトルを生成し、第２のクエリセンテンスをコードして第２のクエリベクトルを生成し、第１のクエリベクトルと第２のクエリベクトルにマッチングモデルを入力してマッチングカテゴリを出力し、マッチングカテゴリに応じて第１のクエリセンテンスと第２のクエリセンテンスのテキスト類似度を決定する。したがって、各サブユーザにデータセットを構築した後、データセットをマージして重複排除し、全てのサブデータセットをターゲットユーザの汎用データセットとしてマージし、これにより、分野汎用性がよくなり、ランダムサンプリングにおける偽サンプル及びデータが簡単すぎるという技術的問題を効果的に解決し、トレーニングされたモデルのロバスト性をさらに向上させる。

上記の実施例を実現するために、本願はデータセット処理装置を提供する。

図７は、本願の第６の実施例にて提供されるデータセット処理装置の構造概略図である。

図７に示すように、該データセット処理装置６００は、第１の取得モジュール６０１と、第２の取得モジュール６０２と、第３の取得モジュール６０３と、第１の生成モジュール６０４と、第２の生成モジュール６０５と、第３の生成モジュール６０６と、認識モジュール６０７と、を含んでもよい。

第１の取得モジュール６０１は、ターゲットユーザから提供された複数のテキストブロックを取得することに用いられる。各テキストブロックには、類似する意味を有する複数のテキストが含まれる。

第２の取得モジュール６０２は、前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得することに用いられる。

第３の取得モジュール６０３は、前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得することに用いられる。

第１の生成モジュール６０４は、前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することに用いられる。

第２の生成モジュール６０５は、前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成することに用いられる。

第３の生成モジュール６０６は、前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成することに用いられる。

認識モジュール６０７は、前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識することに用いられる。

第２の取得モジュール６０２は、前記ターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成し、前記複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成することと、前記第１のワードセグメンテーションセットを各前記第２のワードセグメンテーションセットと比較し、前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得することと、前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、前記閾値より大きいワードセグメンテーション重複度に対応する第２のワードセグメンテーションセットに基づいて前記第１のテキストセットを生成することと、に用いられることとしてもよい。

第２の取得モジュール６０２は、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得ることと、前記複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを前記プリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得ることと、前記ターゲットセンテンスベクトルと前記各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算することと、前記コサイン類似度をプリセットコサイン閾値と比較し、前記プリセットコサイン閾値より大きいテキストに基づいて前記第１のテキストセットを生成することと、に用いられることとしてもよい。

図８に示すように、図７に基づいて、さらに第４の取得モジュール６０８及び削除モジュール６０９を含むこととしてもよい。

第４の取得モジュール６０８は、前記第１のテキストセットのテキスト数を取得し、前記テキスト数がプリセット数閾値より大きいか否かを判断することに用いられる。

削除モジュール６０９は、前記テキスト数が前記プリセット数閾値より大きい場合、前記テキスト数が前記数閾値と等しくなるよう、前記数閾値に応じて前記第１のテキストセット内のテキストを削除することに用いられる。

第３の取得モジュール６０３は、前記ターゲットテキストに対応するブロック識別子を取得することと、前記第１のテキストセット内の各テキストが属するブロック識別子を取得することと、前記各テキストが属するブロック識別子を前記ターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて前記第２のテキストセットを生成することと、に用いられることとしてもよい。

第１の生成モジュール６０４は、前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得することと、各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成することと、異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成することと、前記第１のネガティブサンプルセットと前記第２のネガティブサンプルセットに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することと、に用いられることとしてもよい。

第２の生成モジュール６０５は、前記ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得することと、前記ターゲットテキストブロック内の複数のテキストを組み合わせて前記ターゲットテキストのポジティブサンプルセットを生成することと、に用いられることとしてもよい。

ターゲットユーザは複数のサブユーザを含み、第１の取得モジュール６０１は、具体的には、各サブユーザから提供された複数のテキストブロックを取得することに用いられ、第３の生成モジュール６０６は、具体的には、前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記各サブユーザに対応するサブデータセットを生成することと、前記各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成することと、プリセット重複排除戦略に従って前記候補データセットを重複排除して前記ターゲットユーザのデータセットを生成することと、に用いられることとしてもよい。

認識モジュール６０７は、第１のクエリセンテンス及び第２のクエリセンテンスを取得することと、前記第１のクエリセンテンスをコードして第１のクエリベクトルを生成することと、前記第２のクエリセンテンスをコードして第２のクエリベクトルを生成することと、前記第１のクエリベクトルと前記第２のクエリベクトルに前記マッチングモデルを入力してマッチングカテゴリを出力し、前記マッチングカテゴリに応じて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定することと、に用いられることとしてもよい。

認識モジュール６０７は、第１のクエリセンテンス及び第２のクエリセンテンスを取得することと、前記第１のクエリセンテンスと前記第２のクエリセンテンスを前記マッチングモデルに入力してセンテンスを整列することと、前記整列結果に基づいて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定することと、に用いられることとしてもよい。

本願の実施例で提供されるデータセット処理装置は、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれ、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成し、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。これにより、ランダムサンプリングにおける偽サンプル及びデータが比較的簡単であるという技術的問題を回避し、類似マッチング条件によってテキストセットをマッチングした後、さらにポジティブサンプルセットとネガティブサンプルセットを取得してデータセットを生成し、データセットの有効性を向上させ、さらにマッチングモデルのロバスト性を向上させる。

本願の実施例によれば、本願は電子機器及び読み取り可能な記憶媒体をさらに提供する。

図９には、本願の実施例によるデータセット処理方法を実現する電子機器のブロック図が示されている。電子機器は、ラップトップコンピュータ、デスクトップコンピュータ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータなどの様々な形態のデジタルコンピュータを意図する。電子機器は、さらに、パーソナルデジタルプロセシング、携帯電話、スマートフォン、ウェアラブル機器、及び他の同様のコンピューティング装置など、様々な形態のモバイル装置とすることができる。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は、単なる例であり、本明細書に記載及び／又は要求される本願の実現を制限することを意図していない。

図９に示すように、該電子機器は、１つ又は複数のプロセッサ９０１と、メモリ９０２と、各部材を接続するための、高速インタフェース及び低速インタフェースを含むインタフェースとを含む。各部材は、異なるバスを介して互いに接続し、共通のマザーボード上に取り付けられてもよく、必要に応じて他の方法で取り付けられてもよい。プロセッサは、外部入力／出力装置（インタフェースに結合された表示機器）上にＧＵＩのグラフィック情報を表示するために、メモリ内又はメモリ上に記憶されているコマンドを含む、電子機器内で実行されるコマンドを処理することができる。他の実施形態では、必要に応じて、複数のプロセッサ及び／又は複数のバスを複数のメモリ及び複数のメモリとともに使用してもよい。同様に、複数の電子機器を接続してもよく、各機器により一部の必要な操作（例えば、サーバアレイ、ブレードサーバセット、又はマルチプロセッサシステムとして）が提供される。図９では１つのプロセッサ９０１を例に挙げている。

メモリ９０２は、本願にて提供される非一時的なコンピュータ読み取り可能な記憶媒体である。前記メモリには、少なくとも１つのプロセッサに本願で提供されるデータセット処理方法を実行させるため、少なくとも１つのプロセッサにより実行されるコマンドが記憶されている。本願の非一時的なコンピュータ読み取り可能な記憶媒体は、本願で提供されるデータセット処理方法をコンピュータに実行させるコンピュータコマンドを記憶する。

非一時的なコンピュータ読み取り可能な記憶媒体として、メモリ９０２は、本願の実施例におけるデータセット処理方法に対応するプログラムコマンド／モジュール（例えば、図７に示される第１の取得モジュール６０１、第２の取得モジュール６０２、第３の取得モジュール６０３、第１の生成モジュール６０４、第２の生成モジュール６０５、第３の生成モジュール６０６及び認識モジュール６０７）などの非一時的なソフトウェアプログラム、非一時的なコンピュータ実行可能プログラム及びモジュールを記憶することに用いられる。プロセッサ９０１は、メモリ９０２に記憶された非一時的なソフトウェアプログラム、コマンド、及びモジュールを実行することで、電子機器の様々な機能適用及びデータ処理を実行し、すなわち、上記の方法の実施例におけるデータセット処理方法を実現する。

メモリ９０２は、プログラム記憶領域及びデータ記憶領域を含んでもよく、プログラム記憶領域は、オペレーティングシステム、少なくとも１つの機能に必要なアプリケーションプログラムを記憶することができ、データ記憶領域は、データセット処理の電子機器の使用に応じて作成されたデータなどを記憶することができる。メモリ９０２は、高速ランダムアクセスメモリを含んでもよく、少なくとも１つの磁気ディスク記憶デバイス、フラッシュメモリデバイス、又は他の非一時的なソリッドステート記憶デバイスなどの非一時的なメモリを含んでもよい。いくつかの実施例では、メモリ９０２は、好ましくは、プロセッサ９０１に対して遠隔に設定されたメモリを含んでもよく、これらの遠隔メモリは、ネットワーク経由でデータセット処理の電子機器に接続することができる。上記のネットワークの例には、インターネット、イントラネット、ローカルエリアネットワーク、モバイル通信ネットワーク、及びそれらの組み合わせが含まれるが、これらに制限されるものではない。

データセット処理方法の電子機器は、入力装置９０３及び出力装置９０４をさらに含んでもよい。プロセッサ９０１、メモリ９０２、入力装置９０３及び出力装置９０４は、バス又は他の方法を介して接続されてもよいが、図９にはバスを介して接続されることを例示している。

入力装置９０３は入力された数字又は文字情報を受信し、データセット処理の電子機器のユーザ設定及び機能制御に関連するキー信号を生成することができる。例えばタッチスクリーン、小型キーボード、マウス、トラックパッド、タッチパネル、指示レバー、１つ又は複数のマウスボタン、トラックボール、ジョイスティックなどの入力装置である。出力装置９０４は、表示機器、補助照明装置（例えば、ＬＥＤ）、触覚フィードバック装置（例えば、振動モータ）などを含んでもよい。該表示機器は、液晶ディスプレイ（ＬＣＤ）、発光ダイオード（ＬＥＤ）ディスプレイ、プラズマディスプレイを含んでもよいが、これらに制限されるものではない。いくつかの実施形態では、表示機器はタッチスクリーンであってもよい。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行される場合に、本出願の実施例のデータセット処理方法が実行される。

ここで説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、専用ＡＳＩＣ（専用集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせによって実現されることができる。これらの様々な実施形態は、以下のようであってもよい。１つ又は複数のコンピュータプログラムに実行され、該１つ又は複数のコンピュータプログラムは少なくとも１つのプログラマブルプロセッサを含むプログラマブルシステムで実行及び／又は解釈され得、該ラマブルプロセッサは専用又は汎用のプログラマブルプロセッサであってもよく、記憶システム、少なくとも１つの入力装置、及び少なくとも１つの出力装置からデータ及びコマンドを受信し、かつデータ及びコマンドを該記憶システム、該少なくとも１つの入力装置、及び該少なくとも１つの出力装置に送信してもよい。

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、又はコードとも呼ばれる）は、プログラマブルプロセッサの機械コマンドを含み、ハイレベルのプロセス及び／又はオブジェクト指向プログラミング言語、及び／又はアセンブリ／機械語でこれらのコンピュータプログラムを実行してもよい。本明細書で使用される用語「機械読み取り可能な媒体」及び「コンピュータ読み取り可能な媒体」は、プログラマブルプロセッサに機械コマンド及び／又はデータを提供するための任意のコンピュータプログラム製品、機器、及び／又は装置（例えば、磁気ディスク、光学ディスク、メモリ、プログラマブル論理機器（ＰＬＤ））を指し、機械読み取り可能な信号として機械コマンドを受け取る機械読み取り可能な媒体を含む。用語「機械読み取り可能な信号」は、機械コマンド及び／又はデータをプログラマブルプロセッサに提供することに用いられる任意の信号を指す。

ユーザとのインタラクションを提供するために、ここで説明されているシステム及び技術は、コンピュータで実行されてもよく、該コンピュータは、ユーザに情報を表示する表示装置（例えばＣＲＴ（陰極線管）やＬＣＤ（液晶ディスプレイ）モニター）、及びキーボードやポインティング装置（例えばマウスやトラックボール）を有し、ユーザは、該キーボード及び該ポインティング装置を介してコンピュータに入力を提供することができる。他の種類の装置はまたユーザとのインタラクション機能を提供することに用いられることができ、例えば、ユーザに提供するフィードバックは、任意の形態のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、任意の形態（音響入力、音声入力又は触覚入力を含む）でユーザからの入力を受信することができる。

ここで説明するシステム及び技術は、バックエンド部材を含むコンピューティングシステム（例えば、データサーバとして）、又はミドルウェア部材を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部材を含むコンピューティングシステム（例えば、パターンユーザインタフェース又はインターネットブラウザを備えたユーザコンピュータであり、ユーザが該グラフィカルユーザインタフェース又は該インターネットブラウザを介してここで説明するシステム及び技術の実施形態とインタラクションを行うことができる）、又はこのようなバックエンド部材、ミドルウェア部材、或いはフロントエンド部材の任意の組み合わせを含むコンピューティングシステム内で実施されてもよい。システムの部材は、任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によって互いに接続されてもよい。通信ネットワークとしては、例えば、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットが挙げられる。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアント及びサーバは、一般に、互いに離れており、通常、通信ネットワークを介してインタラクションを行う。クライアントとサーバの関係は、それぞれのコンピュータ上で実行され、互いにクライアント−サーバ関係を有するコンピュータプログラムによって生成される。

本願の実施例の技術的解決手段によれば、ターゲットユーザから提供された複数のテキストブロックを取得する。各テキストブロックには、類似する意味を有する複数のテキストが含まれ、複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得し、第１のテキストセットからターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得し、第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいてターゲットテキストのネガティブサンプルセットを生成し、ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいてターゲットテキストのポジティブサンプルセットを生成し、ネガティブサンプルセットとポジティブサンプルセットに基づいてターゲットユーザのデータセットを生成し、データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する。これにより、ランダムサンプリングにおける偽サンプル及びデータが比較的簡単であるという技術的問題を回避し、類似マッチング条件によってテキストセットをマッチングした後、さらにポジティブサンプルセットとネガティブサンプルセットを取得してデータセットを生成し、データセットの有効性を向上させ、さらにマッチングモデルのロバスト性を向上させる。

上記に示された様々な形態のフローは、ステップに対して順序変更、追加、又は削除して使用できることが理解されたい。例えば、本願に記載された各ステップは、並列に実行されても、順次実行されても、異なる順序で実行されてもよく、本願に開示された技術的解決手段の所望の結果を実現できればよく、本明細書では制限されない。

上記の具体的な実施形態は、本願の保護範囲を制限するものではない。当業者は、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブ組み合わせ、及び置換を行うことができることを理解すべきである。本願の趣旨と原則の範囲内で行われた変更、同等の置換、及び改善などは、本願の保護範囲に含まれるべきである。

Claims

ターゲットユーザから提供された複数のテキストブロックを取得し、各テキストブロックには、類似する意味を有する複数のテキストが含まれ、前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得するステップと、
前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得するステップと、
前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成するステップと、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成するステップと、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成し、前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識するステップと、を含むことを特徴とする、データセット処理方法。
前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得するステップは、
前記ターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成し、前記複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成するステップと、
前記第１のワードセグメンテーションセットを各前記第２のワードセグメンテーションセットと比較し、前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得するステップと、
前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、前記閾値より大きいワードセグメンテーション重複度に対応する第２のワードセグメンテーションセットに基づいて前記第１のテキストセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得するステップは、
前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得るステップと、
前記複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを前記プリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得るステップと、
前記ターゲットセンテンスベクトルと前記各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算するステップと、
前記コサイン類似度をプリセットコサイン閾値と比較し、前記プリセットコサイン閾値より大きいテキストに基づいて前記第１のテキストセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得する前に、
前記第１のテキストセットのテキスト数を取得し、前記テキスト数がプリセット数閾値より大きいか否かを判断するステップと、
前記テキスト数が前記プリセット数閾値より大きい場合、前記テキスト数が前記数閾値と等しくなるように、前記数閾値に応じて前記第１のテキストセット内のテキストを削除するステップと、をさらに含むことを特徴とする、請求項１に記載の方法。
前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得する前記ステップは、
前記ターゲットテキストに対応するブロック識別子を取得するステップと、
前記第１のテキストセット内の各テキストが属するブロック識別子を取得するステップと、
前記各テキストが属するブロック識別子を前記ターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて前記第２のテキストセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成する前記ステップは、
前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得するステップと、
各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成するステップと、
異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成するステップと、
前記第１のネガティブサンプルセットと前記第２のネガティブサンプルセットに基づいて前記ターゲットテキストのネガティブサンプルセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成する前記ステップは、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得するステップと、
前記ターゲットテキストブロック内の複数のテキストを組み合わせて前記ターゲットテキストのポジティブサンプルセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記ターゲットユーザは複数のサブユーザを含み、
ターゲットユーザから提供された複数のテキストブロックを取得する前記ステップは、
各サブユーザから提供された複数のテキストブロックを取得するステップを含み、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成する前記ステップは、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記各サブユーザに対応するサブデータセットを生成するステップと、
前記各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成するステップと、
プリセット重複排除戦略に従って前記候補データセットを重複排除して前記ターゲットユーザのデータセットを生成するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する前記ステップは、
第１のクエリセンテンス及び第２のクエリセンテンスを取得するステップと、
前記第１のクエリセンテンスをコードして第１のクエリベクトルを生成するステップと、
前記第２のクエリセンテンスをコードして第２のクエリベクトルを生成するステップと、
前記第１のクエリベクトルと前記第２のクエリベクトルに前記マッチングモデルを入力してマッチングカテゴリを出力し、前記マッチングカテゴリに応じて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定するステップと、を含むことを特徴とする、請求項１に記載の方法。
前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する前記ステップは、
第１のクエリセンテンス及び第２のクエリセンテンスを取得するステップと、
前記第１のクエリセンテンスと前記第２のクエリセンテンスを前記マッチングモデルに入力してセンテンスを整列するステップと、
整列結果に基づいて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定するステップと、を含むことを特徴とする、請求項１に記載の方法。
ターゲットユーザから提供された複数のテキストブロックを取得することに用いられる第１の取得モジュールであって、各テキストブロックには、類似する意味を有する複数のテキストが含まれる第１の取得モジュールと、
前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第１のテキストセットを取得することに用いられる第２の取得モジュールと、
前記第１のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第２のテキストセットを取得することに用いられる第３の取得モジュールと、
前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することに用いられる第１の生成モジュールと、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成することに用いられる第２の生成モジュールと、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成することに用いられる第３の生成モジュールと、
前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識することに用いられる認識モジュールと、を含むことを特徴とする、データセット処理装置。
前記第２の取得モジュールは、
前記ターゲットテキストに対してワードセグメンテーション処理を実行して第１のワードセグメンテーションセットを生成し、前記複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第２のワードセグメンテーションセットを生成することと、
前記第１のワードセグメンテーションセットを各前記第２のワードセグメンテーションセットと比較し、前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得することと、
前記第１のワードセグメンテーションセットと各前記第２のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、前記閾値より大きいワードセグメンテーション重複度に対応する第２のワードセグメンテーションセットに基づいて前記第１のテキストセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記第２の取得モジュールは、
前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得ることと、
前記複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを前記プリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得ることと、
前記ターゲットセンテンスベクトルと前記各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算することと、
前記コサイン類似度をプリセットコサイン閾値と比較し、前記プリセットコサイン閾値より大きいテキストに基づいて前記第１のテキストセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記第１のテキストセットのテキスト数を取得し、前記テキスト数がプリセット数閾値より大きいか否かを判断することに用いられる第４の取得モジュールと、
前記テキスト数が前記プリセット数閾値より大きい場合、前記テキスト数が前記数閾値と等しくなるように、前記数閾値に応じて前記第１のテキストセット内のテキストを削除することに用いられる削除モジュールと、をさらに含むことを特徴とする、請求項１１に記載の装置。
前記第３の取得モジュールは、
前記ターゲットテキストに対応するブロック識別子を取得することと、
前記第１のテキストセット内の各テキストが属するブロック識別子を取得することと、
前記各テキストが属するブロック識別子を前記ターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて前記第２のテキストセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記第１の生成モジュールは、
前記第２のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得することと、
各候補テキストブロック内の複数のテキストを組み合わせて第１のネガティブサンプルセットを生成することと、
異なる候補テキストブロック内の複数のテキストを組み合わせて第２のネガティブサンプルセットを生成することと、
前記第１のネガティブサンプルセットと前記第２のネガティブサンプルセットに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記第２の生成モジュールは、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得することと、
前記ターゲットテキストブロック内の複数のテキストを組み合わせて前記ターゲットテキストのポジティブサンプルセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記ターゲットユーザは複数のサブユーザを含み、
前記第１の取得モジュールは、
各サブユーザから提供された複数のテキストブロックを取得することに用いられ、
前記第３の生成モジュールは、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記各サブユーザに対応するサブデータセットを生成することと、
前記各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成することと、
プリセット重複排除戦略に従って前記候補データセットを重複排除して前記ターゲットユーザのデータセットを生成することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記認識モジュールは、
第１のクエリセンテンス及び第２のクエリセンテンスを取得することと、
前記第１のクエリセンテンスをコードして第１のクエリベクトルを生成することと、
前記第２のクエリセンテンスをコードして第２のクエリベクトルを生成することと、
前記第１のクエリベクトルと前記第２のクエリベクトルに前記マッチングモデルを入力してマッチングカテゴリを出力し、前記マッチングカテゴリに応じて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定することと、に用いられることを特徴とする、請求項１１に記載の装置。
前記認識モジュールは、
第１のクエリセンテンス及び第２のクエリセンテンスを取得することと、
前記第１のクエリセンテンスと前記第２のクエリセンテンスを前記マッチングモデルに入力してセンテンスを整列することと、
整列結果に基づいて前記第１のクエリセンテンスと前記第２のクエリセンテンスのテキスト類似度を決定することと、に用いられることを特徴とする、請求項１１に記載の装置。
少なくとも１つのプロセッサと、
前記少なくとも１つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも１つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドが前記少なくとも１つのプロセッサによって実行される場合、前記少なくとも１つのプロセッサが請求項１から１０のいずれかに記載のデータセット処理方法を実行することを特徴とする、電子機器。
コンピュータコマンドが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが実行される場合、請求項１から１０のいずれかに記載のデータセット処理方法が実行されることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項１から１０のいずれかに記載のデータセット処理方法が実行されることを特徴とする、コンピュータプログラム。