JP2022530447A - ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 - Google Patents
ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 Download PDFInfo
- Publication number
- JP2022530447A JP2022530447A JP2021563188A JP2021563188A JP2022530447A JP 2022530447 A JP2022530447 A JP 2022530447A JP 2021563188 A JP2021563188 A JP 2021563188A JP 2021563188 A JP2021563188 A JP 2021563188A JP 2022530447 A JP2022530447 A JP 2022530447A
- Authority
- JP
- Japan
- Prior art keywords
- data
- convolutional neural
- random field
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
Description
Claims (20)
- ディープラーニングに基づく中国語単語分割方法であって、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、
を含むことを特徴とするディープラーニングに基づく中国語単語分割方法。 - 前記文字レベルのデータをシーケンスデータに変換する前記ステップは、
ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換する、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。 - 抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項1に記載のディープラーニングに基づく中国語単語分割方法。 - 前記i番目の条件付きランダムフィールドを訓練する前記ステップは、
前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項3に記載のディープラーニングに基づく中国語単語分割方法。 - 前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップは、
予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るステップと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
ここで、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数であることを特徴とする請求項1~4のいずれかに記載のディープラーニングに基づく中国語単語分割方法。 - ディープラーニングに基づく中国語単語分割装置であって、
訓練コーパスデータを文字レベルのデータに変換するための第1変換ユニットと、
前記文字レベルのデータをシーケンスデータに変換するための第2変換ユニットと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得る第1分割ユニットであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数である第1分割ユニットと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、且つ抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るための第1決定ユニットと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るための第2決定ユニットと、を含む、ことを特徴とするディープラーニングに基づく中国語単語分割装置。 - 前記第2変換ユニットは、ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換するためのサブ変換ユニットを含む、ことを特徴とする請求項6に記載のディープラーニングに基づく中国語単語分割装置。
- 前記第1決定ユニットは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を実行するために用いられる、ことを特徴とする請求項6に記載のディープラーニングに基づく中国語単語分割装置。 - 前記第1決定ユニットは、
前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するための第1サブ計算ユニットと、
最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るための第1サブ決定ユニットと、を含む、ことを特徴とする請求項8に記載のディープラーニングに基づく中国語単語分割装置。 - 前記第2決定ユニットは、
予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るためのサブ分割ユニットと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るためのサブグループ化ユニットであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kサブグループ化ユニットと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るための第2サブ決定ユニットであって、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さが前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数である第2サブ決定ユニットと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るためのサブスティッチングユニットと、を含む、ことを特徴とする請求項6~9のいずれかに記載の装置。 - 記憶媒体であって、前記記憶媒体は、記憶されるプログラムを含み、前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
前記ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を行わせる、ことを特徴とする記憶媒体。 - 前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記文字レベルのデータをシーケンスデータに変換する前記ステップを行わせるステップは、
ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換するステップを含む、ことを特徴とする請求項11に記載の記憶媒体。 - 前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイムイング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得る前記ステップを行わせるステップは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項11に記載の記憶媒体。 - 前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記i番目の条件付きランダムフィールドを訓練する前記ステップを実行するステップは、
前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項13に記載の記憶媒体。 - 前記プログラムの運転中に、前記記憶媒体が位置する機器を制御して、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップを実行するステップは、
予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るステップと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
ここで、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数であることを特徴とする請求項11~14のいずれかに記載の記憶媒体。 - プログラム命令を含む情報を記憶するためのメモリと、プログラム命令の実行を制御するためのプロセッサと、を含むコンピュータ機器であって、前記プログラム命令がプロセッサによりロードされて実行されると、
訓練コーパスデータを文字レベルのデータに変換するステップと、
前記文字レベルのデータをシーケンスデータに変換するステップと、
予め設定された符号に基づいて前記シーケンスデータを分割し、複数のサブシーケンスデータを取得し、サブシーケンスデータの長さに基づいて前記複数のサブシーケンスデータをグループ化し、K個のデータセットを得るステップであって、前記K個のデータセットのうちの各々のデータセットに含まれるサブシーケンスデータの長さが同じであり、Kは、1より大きい自然数であるステップと、
i番目のデータセットから複数のサブシーケンスデータを抽出し、抽出した前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、iを順に1~Kの自然数とし、合計でK個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップと、
ターゲットコーパスデータを文字レベルのデータに変換し、第1データを取得し、前記第1データをシーケンスデータに変換し、第2データを取得し、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得るステップと、を実施する、ことを特徴とするコンピュータ機器。 - 前記プログラム命令がプロセッサによりロードされて実行されると、前記文字レベルのデータをシーケンスデータに変換する前記ステップを実施するステップは、
ワンホットエンコーディング又は単語のベクトルエンコーディングのいずれかである予め設定されたエンコーディング方式により前記文字レベルのデータを前記シーケンスデータに変換するステップを含む、ことを特徴とする請求項16に記載のコンピュータ機器。 - 前記プログラム命令がプロセッサによりロードされて実行されるときに、抽出された前記複数のサブシーケンスデータをi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを訓練し、訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップを実現するステップは、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおけるタイミング畳み込みニューラルネットワークであるi番目のタイミング畳み込みニューラルネットワークに、抽出された前記複数のサブシーケンスデータを入力してフォワード伝播を行い、第1出力データを得るステップS1と、
前記第1出力データ及び入力された前記複数のサブシーケンスデータに基づいて損失関数の値を計算するステップS2と、
前記損失関数の値がデフォルト値より大きいと、前記複数のサブシーケンスデータを前記i番目のタイミング畳み込みニューラルネットワークに入力してバックワード伝播を行い、且つ前記i番目のタイミング畳み込みニューラルネットワークのネットワークパラメータを最適化するステップS3と、
前記損失関数の値が前記デフォルト値以下になるまで、ステップS1~S3を繰り返すステップS4と、
前記損失関数の値が前記デフォルト値以下になると、訓練完了を決定し、訓練後のi番目のタイミング畳み込みニューラルネットワークを得るステップS5と、
前記i番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルにおける条件付きランダムフィールドであるi番目の条件付きランダムフィールドに、前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータを入力し、且つ前記i番目の条件付きランダムフィールドを訓練し、前記訓練後のi番目のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを得るステップS6と、を含む、ことを特徴とする請求項16に記載のコンピュータ機器。 - 前記プログラム命令がプロセッサによりロードされて実行されるときに、前記i番目の条件付きランダムフィールドを訓練する前記ステップを実施するステップは、
前記訓練後のi番目のタイミング畳み込みニューラルネットワークから出力されたデータに基づいて、前記i番目の条件付きランダムフィールドの出力データの条件確率を計算するステップと、
最尤推定方法を用いて訓練して、前記i番目の条件付きランダムフィールドの出力データの条件確率の最大値を得るステップと、を含む、ことを特徴とする請求項18に記載のコンピュータ機器。 - 前記プログラム命令がプロセッサによりロードされて実行されるときに、前記第2データを前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルのうちの少なくとも1つの訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、前記ターゲットコーパスデータの単語分割結果を得る前記ステップを実施するステップは
予め設定された符号に基づいて前記第2データを分割し、複数のシーケンスデータを得るステップと、
シーケンスデータの長さに基づいて前記複数のシーケンスデータをグループ化し、L個のデータセットを得るステップであって、前記L個のデータセットのうちの各々のデータセットに含まれるすべてのシーケンスデータの長さが同じであり、Lは、自然数であり、1≦L≦Kステップと、
訓練過程に使用されたサブシーケンスデータの長さに基づいて前記K個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルから、L個の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルをスクリーニングし、L1番目~LL番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルを取得し、j番目のデータセットに含まれるすべてのシーケンスデータをLj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルに入力し、複数の単語分割結果を得るステップと、
前記複数の単語分割結果をスティッチングし、前記ターゲットコーパスデータの単語分割結果を得るステップと、を含み、
ここで、前記Lj番目の訓練後のタイミング畳み込みニューラルネットワーク-条件付きランダムフィールドモデルの訓練過程に使用されたサブシーケンスデータの長さは、前記j番目のデータセットに含まれるシーケンスデータの長さと同じであり、jは順に1~Lの自然数であり、Ljは1~Kの自然数であることを特徴とする請求項16~19のいずれかに記載のコンピュータ機器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910322127.8A CN110222329B (zh) | 2019-04-22 | 2019-04-22 | 一种基于深度学习的中文分词方法和装置 |
CN201910322127.8 | 2019-04-22 | ||
PCT/CN2019/118259 WO2020215694A1 (zh) | 2019-04-22 | 2019-11-14 | 一种基于深度学习的中文分词方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022530447A true JP2022530447A (ja) | 2022-06-29 |
JP7178513B2 JP7178513B2 (ja) | 2022-11-25 |
Family
ID=67819927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021563188A Active JP7178513B2 (ja) | 2019-04-22 | 2019-11-14 | ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP7178513B2 (ja) |
CN (1) | CN110222329B (ja) |
SG (1) | SG11202111464WA (ja) |
WO (1) | WO2020215694A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110222329B (zh) * | 2019-04-22 | 2023-11-24 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
US10817665B1 (en) * | 2020-05-08 | 2020-10-27 | Coupang Corp. | Systems and methods for word segmentation based on a competing neural character language model |
CN112528648A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 多音字发音的预测方法、装置、设备及存储介质 |
CN112884087A (zh) * | 2021-04-07 | 2021-06-01 | 山东大学 | 一种生物增强子及其类型的识别方法 |
CN113341919B (zh) * | 2021-05-31 | 2022-11-08 | 中国科学院重庆绿色智能技术研究院 | 一种基于时序数据长度优化的计算***故障预测方法 |
CN114863995B (zh) * | 2022-03-30 | 2024-05-07 | 安徽大学 | 一种基于双向门控循环神经网络的沉默子预测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001071448A2 (en) * | 2000-03-20 | 2001-09-27 | Freeman Robert J | Natural-language processing system using a large corpus |
CN104182423A (zh) * | 2013-05-27 | 2014-12-03 | 华东师范大学 | 一种基于条件随机场的中文人名自动识别方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN107291684B (zh) * | 2016-04-12 | 2021-02-09 | 华为技术有限公司 | 语言文本的分词方法和*** |
JP6756916B2 (ja) * | 2016-10-26 | 2020-09-16 | ディープマインド テクノロジーズ リミテッド | ニューラルネットワークを使用したテキストシーケンスの処理 |
CN107977354A (zh) * | 2017-10-12 | 2018-05-01 | 北京知道未来信息技术有限公司 | 一种基于Bi-LSTM-CNN的混合语料分词方法 |
CN108536679B (zh) * | 2018-04-13 | 2022-05-20 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109086267B (zh) * | 2018-07-11 | 2022-07-26 | 南京邮电大学 | 一种基于深度学习的中文分词方法 |
CN109255119B (zh) * | 2018-07-18 | 2023-04-25 | 五邑大学 | 一种基于分词和命名实体识别的多任务深度神经网络的句子主干分析方法及*** |
CN110222329B (zh) * | 2019-04-22 | 2023-11-24 | 平安科技(深圳)有限公司 | 一种基于深度学习的中文分词方法和装置 |
-
2019
- 2019-04-22 CN CN201910322127.8A patent/CN110222329B/zh active Active
- 2019-11-14 JP JP2021563188A patent/JP7178513B2/ja active Active
- 2019-11-14 WO PCT/CN2019/118259 patent/WO2020215694A1/zh active Application Filing
- 2019-11-14 SG SG11202111464WA patent/SG11202111464WA/en unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008140117A (ja) * | 2006-12-01 | 2008-06-19 | National Institute Of Information & Communication Technology | 中国語の文字シーケンスを中国語の単語シーケンスにセグメント化するための装置 |
CN103020034A (zh) * | 2011-09-26 | 2013-04-03 | 北京大学 | 中文分词方法和装置 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
Non-Patent Citations (1)
Title |
---|
WANG, CHUNQI、XU, BO, CONVOLUTIONAL NEURAL NETWORK WITH WORD EMBEDDINGS FOR CHINESE WORD SEGMENTATION [ONLINE], JPN6022046464, 13 November 2017 (2017-11-13), pages 1 - 10, ISSN: 0004916289 * |
Also Published As
Publication number | Publication date |
---|---|
SG11202111464WA (en) | 2021-11-29 |
WO2020215694A1 (zh) | 2020-10-29 |
JP7178513B2 (ja) | 2022-11-25 |
CN110222329B (zh) | 2023-11-24 |
CN110222329A (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7178513B2 (ja) | ディープラーニングに基づく中国語単語分割方法、装置、記憶媒体及びコンピュータ機器 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
WO2020143321A1 (zh) | 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 | |
CN108875074B (zh) | 基于交叉注意力神经网络的答案选择方法、装置和电子设备 | |
US20190130249A1 (en) | Sequence-to-sequence prediction using a neural network model | |
CN111950269A (zh) | 文本语句处理方法、装置、计算机设备和存储介质 | |
CN106557563B (zh) | 基于人工智能的查询语句推荐方法及装置 | |
CN112069310B (zh) | 基于主动学习策略的文本分类方法及*** | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113168559A (zh) | 机器学习模型的自动化生成 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN111325264A (zh) | 一种基于熵的多标签数据分类方法 | |
CN111738007A (zh) | 一种基于序列生成对抗网络的中文命名实体识别数据增强算法 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN110019795B (zh) | 敏感词检测模型的训练方法和*** | |
CN110598869B (zh) | 基于序列模型的分类方法、装置、电子设备 | |
CN116306504B (zh) | 候选实体生成方法、装置、存储介质及电子设备 | |
CN115795065A (zh) | 基于带权哈希码的多媒体数据跨模态检索方法及*** | |
CN115080749A (zh) | 一种基于自监督训练的弱监督文本分类方法、***和装置 | |
WO2020100738A1 (ja) | 処理装置、処理方法、及び処理プログラム | |
CN111611395B (zh) | 一种实体关系的识别方法及装置 | |
Gu et al. | Robust semi-supervised classification for noisy labels based on self-paced learning | |
CN114282513A (zh) | 文本语义相似度的匹配方法、***、智能终端及存储介质 | |
CN114399025A (zh) | 一种图神经网络解释方法、***、终端以及存储介质 | |
JP2019082860A (ja) | 生成プログラム、生成方法及び生成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211022 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211022 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178513 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |