JP2021184237A - データセット処理方法、装置、電子機器及び記憶媒体 - Google Patents
データセット処理方法、装置、電子機器及び記憶媒体 Download PDFInfo
- Publication number
- JP2021184237A JP2021184237A JP2020216062A JP2020216062A JP2021184237A JP 2021184237 A JP2021184237 A JP 2021184237A JP 2020216062 A JP2020216062 A JP 2020216062A JP 2020216062 A JP2020216062 A JP 2020216062A JP 2021184237 A JP2021184237 A JP 2021184237A
- Authority
- JP
- Japan
- Prior art keywords
- text
- target
- generate
- word segmentation
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願の第5の態様の実施例は、コンピュータプログラムをさらに提供し、前記コンピュータプログラムにおける命令が実行される場合に、第1の態様の実施例に記載のデータセット処理方法が実行される。
本出願の実施例によれば、コンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行される場合に、本出願の実施例のデータセット処理方法が実行される。
Claims (23)
- ターゲットユーザから提供された複数のテキストブロックを取得し、各テキストブロックには、類似する意味を有する複数のテキストが含まれ、前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第1のテキストセットを取得するステップと、
前記第1のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第2のテキストセットを取得するステップと、
前記第2のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成するステップと、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成するステップと、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成し、前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識するステップと、を含むことを特徴とする、データセット処理方法。 - 前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第1のテキストセットを取得するステップは、
前記ターゲットテキストに対してワードセグメンテーション処理を実行して第1のワードセグメンテーションセットを生成し、前記複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第2のワードセグメンテーションセットを生成するステップと、
前記第1のワードセグメンテーションセットを各前記第2のワードセグメンテーションセットと比較し、前記第1のワードセグメンテーションセットと各前記第2のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得するステップと、
前記第1のワードセグメンテーションセットと各前記第2のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、前記閾値より大きいワードセグメンテーション重複度に対応する第2のワードセグメンテーションセットに基づいて前記第1のテキストセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第1のテキストセットを取得するステップは、
前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得るステップと、
前記複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを前記プリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得るステップと、
前記ターゲットセンテンスベクトルと前記各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算するステップと、
前記コサイン類似度をプリセットコサイン閾値と比較し、前記プリセットコサイン閾値より大きいテキストに基づいて前記第1のテキストセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記第1のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第2のテキストセットを取得する前に、
前記第1のテキストセットのテキスト数を取得し、前記テキスト数がプリセット数閾値より大きいか否かを判断するステップと、
前記テキスト数が前記プリセット数閾値より大きい場合、前記テキスト数が前記数閾値と等しくなるように、前記数閾値に応じて前記第1のテキストセット内のテキストを削除するステップと、をさらに含むことを特徴とする、請求項1に記載の方法。 - 前記第1のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第2のテキストセットを取得する前記ステップは、
前記ターゲットテキストに対応するブロック識別子を取得するステップと、
前記第1のテキストセット内の各テキストが属するブロック識別子を取得するステップと、
前記各テキストが属するブロック識別子を前記ターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて前記第2のテキストセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記第2のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成する前記ステップは、
前記第2のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得するステップと、
各候補テキストブロック内の複数のテキストを組み合わせて第1のネガティブサンプルセットを生成するステップと、
異なる候補テキストブロック内の複数のテキストを組み合わせて第2のネガティブサンプルセットを生成するステップと、
前記第1のネガティブサンプルセットと前記第2のネガティブサンプルセットに基づいて前記ターゲットテキストのネガティブサンプルセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成する前記ステップは、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得するステップと、
前記ターゲットテキストブロック内の複数のテキストを組み合わせて前記ターゲットテキストのポジティブサンプルセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記ターゲットユーザは複数のサブユーザを含み、
ターゲットユーザから提供された複数のテキストブロックを取得する前記ステップは、
各サブユーザから提供された複数のテキストブロックを取得するステップを含み、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成する前記ステップは、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記各サブユーザに対応するサブデータセットを生成するステップと、
前記各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成するステップと、
プリセット重複排除戦略に従って前記候補データセットを重複排除して前記ターゲットユーザのデータセットを生成するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する前記ステップは、
第1のクエリセンテンス及び第2のクエリセンテンスを取得するステップと、
前記第1のクエリセンテンスをコードして第1のクエリベクトルを生成するステップと、
前記第2のクエリセンテンスをコードして第2のクエリベクトルを生成するステップと、
前記第1のクエリベクトルと前記第2のクエリベクトルに前記マッチングモデルを入力してマッチングカテゴリを出力し、前記マッチングカテゴリに応じて前記第1のクエリセンテンスと前記第2のクエリセンテンスのテキスト類似度を決定するステップと、を含むことを特徴とする、請求項1に記載の方法。 - 前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識する前記ステップは、
第1のクエリセンテンス及び第2のクエリセンテンスを取得するステップと、
前記第1のクエリセンテンスと前記第2のクエリセンテンスを前記マッチングモデルに入力してセンテンスを整列するステップと、
整列結果に基づいて前記第1のクエリセンテンスと前記第2のクエリセンテンスのテキスト類似度を決定するステップと、を含むことを特徴とする、請求項1に記載の方法。 - ターゲットユーザから提供された複数のテキストブロックを取得することに用いられる第1の取得モジュールであって、各テキストブロックには、類似する意味を有する複数のテキストが含まれる第1の取得モジュールと、
前記複数のテキストブロックからターゲットテキストとプリセット類似マッチング条件を満たす第1のテキストセットを取得することに用いられる第2の取得モジュールと、
前記第1のテキストセットから前記ターゲットテキストと同じテキストブロックに属していない第2のテキストセットを取得することに用いられる第3の取得モジュールと、
前記第2のテキストセット内の各テキストが属する候補テキストブロックのコンテンツに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することに用いられる第1の生成モジュールと、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツに基づいて前記ターゲットテキストのポジティブサンプルセットを生成することに用いられる第2の生成モジュールと、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記ターゲットユーザのデータセットを生成することに用いられる第3の生成モジュールと、
前記データセットに基づいてマッチングモデルをトレーニングしてテキスト類似度を認識することに用いられる認識モジュールと、を含むことを特徴とする、データセット処理装置。 - 前記第2の取得モジュールは、
前記ターゲットテキストに対してワードセグメンテーション処理を実行して第1のワードセグメンテーションセットを生成し、前記複数のテキストブロック内の各テキストに対してワードセグメンテーション処理を実行して複数の第2のワードセグメンテーションセットを生成することと、
前記第1のワードセグメンテーションセットを各前記第2のワードセグメンテーションセットと比較し、前記第1のワードセグメンテーションセットと各前記第2のワードセグメンテーションセットの間のワードセグメンテーション重複度を取得することと、
前記第1のワードセグメンテーションセットと各前記第2のワードセグメンテーションセットの間のワードセグメンテーション重複度をプリセット閾値と比較し、前記閾値より大きいワードセグメンテーション重複度に対応する第2のワードセグメンテーションセットに基づいて前記第1のテキストセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記第2の取得モジュールは、
前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記ターゲットテキストに対応するサブベクトル、テキストベクトル及び位置ベクトルをプリセットトレーニング言語表現モデルに入力してターゲットセンテンスベクトルを得ることと、
前記複数のテキストブロック内の各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを取得し、前記各テキストに対応するサブベクトル、テキストベクトル及び位置ベクトルを前記プリセットトレーニング言語表現モデルに入力して各テキストに対応するセンテンスベクトルを得ることと、
前記ターゲットセンテンスベクトルと前記各テキストに対応するセンテンスベクトルの間のコサイン類似度を計算することと、
前記コサイン類似度をプリセットコサイン閾値と比較し、前記プリセットコサイン閾値より大きいテキストに基づいて前記第1のテキストセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記第1のテキストセットのテキスト数を取得し、前記テキスト数がプリセット数閾値より大きいか否かを判断することに用いられる第4の取得モジュールと、
前記テキスト数が前記プリセット数閾値より大きい場合、前記テキスト数が前記数閾値と等しくなるように、前記数閾値に応じて前記第1のテキストセット内のテキストを削除することに用いられる削除モジュールと、をさらに含むことを特徴とする、請求項11に記載の装置。 - 前記第3の取得モジュールは、
前記ターゲットテキストに対応するブロック識別子を取得することと、
前記第1のテキストセット内の各テキストが属するブロック識別子を取得することと、
前記各テキストが属するブロック識別子を前記ターゲットテキストに対応するブロック識別子と比較し、ブロック識別子が一致しないテキストに基づいて前記第2のテキストセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記第1の生成モジュールは、
前記第2のテキストセット内の各テキストが属する候補テキストブロックのコンテンツを取得することと、
各候補テキストブロック内の複数のテキストを組み合わせて第1のネガティブサンプルセットを生成することと、
異なる候補テキストブロック内の複数のテキストを組み合わせて第2のネガティブサンプルセットを生成することと、
前記第1のネガティブサンプルセットと前記第2のネガティブサンプルセットに基づいて前記ターゲットテキストのネガティブサンプルセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記第2の生成モジュールは、
前記ターゲットテキストが属するターゲットテキストブロックのコンテンツを取得することと、
前記ターゲットテキストブロック内の複数のテキストを組み合わせて前記ターゲットテキストのポジティブサンプルセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記ターゲットユーザは複数のサブユーザを含み、
前記第1の取得モジュールは、
各サブユーザから提供された複数のテキストブロックを取得することに用いられ、
前記第3の生成モジュールは、
前記ネガティブサンプルセットと前記ポジティブサンプルセットに基づいて前記各サブユーザに対応するサブデータセットを生成することと、
前記各サブユーザに対応するサブデータセットを組み合わせて候補データセットを生成することと、
プリセット重複排除戦略に従って前記候補データセットを重複排除して前記ターゲットユーザのデータセットを生成することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記認識モジュールは、
第1のクエリセンテンス及び第2のクエリセンテンスを取得することと、
前記第1のクエリセンテンスをコードして第1のクエリベクトルを生成することと、
前記第2のクエリセンテンスをコードして第2のクエリベクトルを生成することと、
前記第1のクエリベクトルと前記第2のクエリベクトルに前記マッチングモデルを入力してマッチングカテゴリを出力し、前記マッチングカテゴリに応じて前記第1のクエリセンテンスと前記第2のクエリセンテンスのテキスト類似度を決定することと、に用いられることを特徴とする、請求項11に記載の装置。 - 前記認識モジュールは、
第1のクエリセンテンス及び第2のクエリセンテンスを取得することと、
前記第1のクエリセンテンスと前記第2のクエリセンテンスを前記マッチングモデルに入力してセンテンスを整列することと、
整列結果に基づいて前記第1のクエリセンテンスと前記第2のクエリセンテンスのテキスト類似度を決定することと、に用いられることを特徴とする、請求項11に記載の装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサに通信接続されるメモリと、を含み、
前記メモリには、前記少なくとも1つのプロセッサによって実行可能なコマンドが記憶され、前記コマンドが前記少なくとも1つのプロセッサによって実行される場合、前記少なくとも1つのプロセッサが請求項1から10のいずれかに記載のデータセット処理方法を実行することを特徴とする、電子機器。 - コンピュータコマンドが記憶された非一時的なコンピュータ読み取り可能な記憶媒体であって、
前記コンピュータコマンドが実行される場合、請求項1から10のいずれかに記載のデータセット処理方法が実行されることを特徴とする、非一時的なコンピュータ読み取り可能な記憶媒体。 - コンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1から10のいずれかに記載のデータセット処理方法が実行されることを特徴とする、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010430339.0A CN111709247B (zh) | 2020-05-20 | 2020-05-20 | 数据集处理方法、装置、电子设备和存储介质 |
CN202010430339.0 | 2020-05-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021184237A true JP2021184237A (ja) | 2021-12-02 |
JP7126542B2 JP7126542B2 (ja) | 2022-08-26 |
Family
ID=72537652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020216062A Active JP7126542B2 (ja) | 2020-05-20 | 2020-12-25 | データセット処理方法、装置、電子機器及び記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11663258B2 (ja) |
EP (1) | EP3913499A1 (ja) |
JP (1) | JP7126542B2 (ja) |
KR (1) | KR102532396B1 (ja) |
CN (1) | CN111709247B (ja) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052835B (zh) * | 2020-09-29 | 2022-10-11 | 北京百度网讯科技有限公司 | 信息处理方法、信息处理装置、电子设备和存储介质 |
CN113033216B (zh) * | 2021-03-03 | 2024-05-28 | 东软集团股份有限公司 | 文本预处理方法、装置、存储介质及电子设备 |
CN113656575B (zh) * | 2021-07-13 | 2024-02-02 | 北京搜狗科技发展有限公司 | 训练数据的生成方法、装置、电子设备及可读介质 |
CN113656540B (zh) * | 2021-08-06 | 2023-09-08 | 北京仁科互动网络技术有限公司 | 基于nl2sql的bi查询方法、装置、设备及介质 |
CN113988047A (zh) * | 2021-09-26 | 2022-01-28 | 北京捷通华声科技股份有限公司 | 一种语料筛选方法和装置 |
CN114186548B (zh) * | 2021-12-15 | 2023-08-15 | 平安科技(深圳)有限公司 | 基于人工智能的句子向量生成方法、装置、设备及介质 |
CN114357974B (zh) * | 2021-12-28 | 2022-09-23 | 北京海泰方圆科技股份有限公司 | 相似样本语料的生成方法、装置、电子设备及存储介质 |
CN115048927A (zh) * | 2022-06-17 | 2022-09-13 | 北京聆心智能科技有限公司 | 一种基于文本分类的病症识别方法、装置及设备 |
CN115062607B (zh) * | 2022-08-17 | 2022-11-11 | 杭州火石数智科技有限公司 | 对比学习的样本构造方法、装置、计算机设备及存储介质 |
CN115239214B (zh) * | 2022-09-23 | 2022-12-27 | 建信金融科技有限责任公司 | 企业的评估处理方法、装置及电子设备 |
CN115357690B (zh) * | 2022-10-19 | 2023-04-07 | 有米科技股份有限公司 | 基于文本模态自监督的文本去重方法及装置 |
CN115658903B (zh) * | 2022-11-01 | 2023-09-05 | 百度在线网络技术(北京)有限公司 | 文本分类方法、模型训练方法、相关装置及电子设备 |
CN116244413B (zh) * | 2022-12-27 | 2023-11-21 | 北京百度网讯科技有限公司 | 新意图确定方法、设备和存储介质 |
CN116150380B (zh) * | 2023-04-18 | 2023-06-27 | 之江实验室 | 一种文本匹配方法、装置、存储介质及设备 |
KR102657627B1 (ko) * | 2024-01-19 | 2024-04-17 | 주식회사 더매트릭스 | 생성형 ai 모델을 이용한 색채 추천 및 이미지 생성 서비스를 제공하는 서버, 시스템, 방법 및 프로그램 |
CN117892019B (zh) * | 2024-03-14 | 2024-05-14 | 南京信息工程大学 | 一种跨社交网络身份链接方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019008779A (ja) * | 2018-05-07 | 2019-01-17 | 株式会社ドワンゴ | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
JP2019082841A (ja) * | 2017-10-30 | 2019-05-30 | 富士通株式会社 | 生成プログラム、生成方法及び生成装置 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP2006072744A (ja) * | 2004-09-02 | 2006-03-16 | Canon Inc | 文書処理装置、その制御方法、プログラム、及び記憶媒体 |
JP4600045B2 (ja) * | 2005-01-07 | 2010-12-15 | 日本電気株式会社 | 意見抽出用学習装置及び意見抽出用分類装置 |
JP5870790B2 (ja) * | 2012-03-19 | 2016-03-01 | 富士通株式会社 | 文章校正装置、及び文章校正方法 |
US10346861B2 (en) * | 2015-11-05 | 2019-07-09 | Adobe Inc. | Adaptive sampling scheme for imbalanced large scale data |
US11042798B2 (en) * | 2016-02-04 | 2021-06-22 | Adobe Inc. | Regularized iterative collaborative feature learning from web and user behavior data |
US10289642B2 (en) * | 2016-06-06 | 2019-05-14 | Baidu Usa Llc | Method and system for matching images with content using whitelists and blacklists in response to a search query |
CN106407311B (zh) * | 2016-08-30 | 2020-07-24 | 北京百度网讯科技有限公司 | 获取搜索结果的方法和装置 |
GB201713728D0 (en) * | 2017-08-25 | 2017-10-11 | Just Eat Holding Ltd | System and method of language processing |
KR102059015B1 (ko) * | 2017-11-24 | 2019-12-24 | 서울대학교산학협력단 | 인공 지능 기반의 대화 시스템 및 그 응답 제어 방법 |
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
JP7087851B2 (ja) * | 2018-09-06 | 2022-06-21 | 株式会社リコー | 情報処理装置、データ分類方法およびプログラム |
US11308320B2 (en) * | 2018-12-17 | 2022-04-19 | Cognition IP Technology Inc. | Multi-segment text search using machine learning model for text similarity |
CN109376309B (zh) * | 2018-12-28 | 2022-05-17 | 北京百度网讯科技有限公司 | 基于语义标签的文档推荐方法和装置 |
CN109992675A (zh) * | 2019-01-30 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 信息处理方法和装置 |
CN110046254B (zh) * | 2019-04-18 | 2022-03-08 | 阿波罗智联(北京)科技有限公司 | 用于生成模型的方法和装置 |
CN110110088B (zh) * | 2019-05-17 | 2023-11-24 | 苏州大学 | 一种文本分类的方法、***、设备及计算机可读存储介质 |
CN110543558B (zh) * | 2019-09-06 | 2023-01-17 | 北京百度网讯科技有限公司 | 问题匹配方法、装置、设备和介质 |
CN110781277A (zh) * | 2019-09-23 | 2020-02-11 | 厦门快商通科技股份有限公司 | 文本识别模型相似度训练方法、***、识别方法及终端 |
CN110795913B (zh) * | 2019-09-30 | 2024-04-12 | 北京大米科技有限公司 | 一种文本编码方法、装置、存储介质及终端 |
CN110750987B (zh) * | 2019-10-28 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置及存储介质 |
CN110795564B (zh) * | 2019-11-01 | 2022-02-22 | 南京稷图数据科技有限公司 | 一种缺少负例的文本分类方法 |
US11487947B2 (en) * | 2019-12-16 | 2022-11-01 | Microsoft Technology Licensing, Llc | Machine learning techniques for analyzing textual content |
-
2020
- 2020-05-20 CN CN202010430339.0A patent/CN111709247B/zh active Active
- 2020-12-24 US US17/133,869 patent/US11663258B2/en active Active
- 2020-12-25 JP JP2020216062A patent/JP7126542B2/ja active Active
- 2020-12-28 EP EP20217361.3A patent/EP3913499A1/en not_active Withdrawn
-
2021
- 2021-05-20 KR KR1020210064562A patent/KR102532396B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019082841A (ja) * | 2017-10-30 | 2019-05-30 | 富士通株式会社 | 生成プログラム、生成方法及び生成装置 |
JP2019008779A (ja) * | 2018-05-07 | 2019-01-17 | 株式会社ドワンゴ | テキスト抽出装置、コメント投稿装置、コメント投稿支援装置、再生端末および文脈ベクトル計算装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3913499A1 (en) | 2021-11-24 |
JP7126542B2 (ja) | 2022-08-26 |
KR20210075036A (ko) | 2021-06-22 |
KR102532396B1 (ko) | 2023-05-12 |
US20210365444A1 (en) | 2021-11-25 |
CN111709247B (zh) | 2023-04-07 |
CN111709247A (zh) | 2020-09-25 |
US11663258B2 (en) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021184237A (ja) | データセット処理方法、装置、電子機器及び記憶媒体 | |
JP7317791B2 (ja) | エンティティ・リンキング方法、装置、機器、及び記憶媒体 | |
KR102565659B1 (ko) | 정보 생성 방법 및 장치 | |
JP7113097B2 (ja) | テキストエンティティの語義記述処理方法、装置及び機器 | |
KR20210040851A (ko) | 텍스트 인식 처리 방법, 장치, 전자 기기 및 저장매체 | |
JP7264866B2 (ja) | イベント関係の生成方法、装置、電子機器及び記憶媒体 | |
JP7269913B2 (ja) | ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP2022018095A (ja) | マルチモーダル事前訓練モデル取得方法、装置、電子デバイス及び記憶媒体 | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
JP7149993B2 (ja) | 感情分析モデルの事前トレーニング方法、装置及び電子機器 | |
JP7234483B2 (ja) | エンティティリンキング方法、装置、電子デバイス、記憶媒体及びプログラム | |
JP7222162B2 (ja) | 機械翻訳におけるモデルトレーニング方法、装置、電子機器、プログラム及び記憶媒体 | |
CN111079442A (zh) | 文档的向量化表示方法、装置和计算机设备 | |
US20210200813A1 (en) | Human-machine interaction method, electronic device, and storage medium | |
JP2021131858A (ja) | エンティティワードの認識方法と装置 | |
US20210209482A1 (en) | Method and apparatus for verifying accuracy of judgment result, electronic device and medium | |
US20220129448A1 (en) | Intelligent dialogue method and apparatus, and storage medium | |
CN111326251B (zh) | 一种问诊问题输出方法、装置以及电子设备 | |
US20210406467A1 (en) | Method and apparatus for generating triple sample, electronic device and computer storage medium | |
JP2022003537A (ja) | 対話意図の認識方法及び装置、電子機器並びに記憶媒体 | |
CN111274407A (zh) | 知识图谱中三元组置信度计算方法和装置 | |
CN112507090A (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
JP7192192B2 (ja) | 語義類似度モデルの訓練方法、装置、電子デバイス及び記憶媒体 | |
JP2021192289A (ja) | 機械学習モデルの敵対的訓練方法、装置、電子機器及び媒体 | |
CN111831814A (zh) | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201225 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220809 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7126542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |