JP7094121B2 - 文章のドメイン判断方法及び装置 - Google Patents

文章のドメイン判断方法及び装置 Download PDF

Info

Publication number
JP7094121B2
JP7094121B2 JP2018042977A JP2018042977A JP7094121B2 JP 7094121 B2 JP7094121 B2 JP 7094121B2 JP 2018042977 A JP2018042977 A JP 2018042977A JP 2018042977 A JP2018042977 A JP 2018042977A JP 7094121 B2 JP7094121 B2 JP 7094121B2
Authority
JP
Japan
Prior art keywords
feature
domain
embedded
autoencoder
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018042977A
Other languages
English (en)
Other versions
JP2019036286A (ja
Inventor
允 泓 閔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of JP2019036286A publication Critical patent/JP2019036286A/ja
Application granted granted Critical
Publication of JP7094121B2 publication Critical patent/JP7094121B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文章のドメイン判断に関する。
入力された文章が現在関心のある作業(task)に関わっているかを区分することは、言語基盤の認識システムにおいて重要である。文章のドメインを判断したり非ドメイン文章(out-of-domain sentence)を検出する方式が提案されている。
非ドメイン文章の検出方式で、ドメイン文章(in-domain sentence)と非ドメイン文章とを区分するための閾値が採用される場合、学習する度に新しい閾値を導き出さなければならないという、効率性が低下する恐れがある。非ドメイン文章の検出方式において、ドメイン文章と非ドメイン文章を明示的に区分する原理が採用されていない場合、データに応じてドメイン判断の性能の偏差が大きくなる。ここで、学習の効率を改善してドメイン判断の性能を高めるためのドメイン判断技術が求められている。
本発明の目的は、オートエンコーダを用いて文章のドメインを判断することにある。
一実施形態に係る文章のドメイン判断方法は、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップとを含む。
一実施形態に係る前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み得る。
一実施形態に係る前記オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、前記判断するステップは、前記距離が閾値距離よりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み得る。
一実施形態に係る前記判断するステップは、前記距離が前記閾値距離よりも大きい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップとを含み得る。
一実施形態に係る前記オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、前記判断するステップは、前記距離が閾値距離よりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み得る。
一実施形態に係る前記判断するステップは、前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップとを含み得る。
一実施形態に係る前記予め定義された位置は前記埋め込み空間上の原点であり得る。
一実施形態に係る前記ドメインを判断するステップは、前記埋め込み特徴の位置及び前記予め定義された位置に基づいて、Lp-norm又はKL-divergence(Kullback-Leibler divergence:KLD)を算出するステップと、前記算出結果に基づいて、前記埋め込み特徴の位置及び前記予め定義された位置の間の距離を生成するステップとを含み得る。
一実施形態に係る前記判断するステップは、前記オートエンコーダを用いて、前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラー及び前記位置に基づいて前記入力文章のドメインを判断するステップとを含み得る。
一実施形態に係る前記埋め込み特徴は、前記オートエンコーダ内の隠しレイヤの活性化値又は事前-活性化値であり得る。
一実施形態に係る前記入力特徴は、前記入力文章からニューラルネットワークによって生成された埋め込み特徴であり得る。
一実施形態に係る前記判断するステップは、予め定義された複数のドメインにそれぞれ対応する予め定義された位置と、前記位置に基づいて前記ドメインのうち前記入力文章が属するドメインを判断するステップを含み得る。
一実施形態に係る前記オートエンコーダは、前記ドメインにそれぞれ属する複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記位置にそれぞれ近づくように学習され、前記入力文章が属するドメインを判断するステップは、前記位置のうち前記位置と最も近い第2位置を識別するステップと、前記位置と前記第2位置の間の距離が閾値距離よりも小さいか否かに基づいて、前記入力文章が前記第2位置に対応する第2ドメインに属するものと判断するステップとを含み得る。
一実施形態に係る前記入力文章が前記第2ドメインに属するものと判断するステップは、前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が非ドメイン文章(前記非ドメイン文章は、前記ドメインに属しない文章である)であるものと判断するステップとを含み得る。
一実施形態に係る文章のドメイン判断のための学習方法は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップと、前記トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間(前記埋め込み空間には、複数の埋め込み特徴が分布する)上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップとを含む。
一実施形態に係る前記オートエンコーダに印加するステップは、ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第1トレーニング特徴から生成された第1埋め込み特徴を取得するステップと、前記第1埋め込み特徴から生成された再構成特徴と前記第1トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、前記第2トレーニング特徴から生成された第2埋め込み特徴の位置が前記埋め込み空間上の第2位置に近づくように前記オートエンコーダを学習させるステップとを含み得る。
一実施形態に係る前記オートエンコーダに印加するステップは、ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第1トレーニング特徴から生成された第1埋め込み特徴の位置が前記埋め込み空間上の第1位置に近づくように前記オートエンコーダを学習させるステップと、前記第2トレーニング特徴から生成された第2埋め込み特徴を取得するステップと、前記第2埋め込み特徴から生成された再構成特徴と前記第2トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップとを含み得る。
一実施形態に係る前記オートエンコーダに印加するステップは、第1ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、第2ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章(前記非ドメイン文章は、複数のドメインに属しない文章である)を表現している第3トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第1トレーニング特徴から生成された第1埋め込み特徴の位置が前記埋め込み空間上の第1位置に近づくように前記オートエンコーダを学習させるステップと、前記第2トレーニング特徴から生成された第2埋め込み特徴の位置が前記埋め込み空間上の第2位置に近づくように前記オートエンコーダを学習させるステップと、前記第3トレーニング特徴から生成された第3埋め込み特徴を取得するステップと、前記第3埋め込み特徴から生成された再構成特徴と前記第3トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップとを含み得る。
一実施形態に係る文章のドメイン判断装置は、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成し、複数の埋め込み特徴が分布している埋め込み空間上、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するプロセッサとを含む。
一実施形態に係る文章のドメイン判断のための学習装置は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加し、前記トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間(前記埋め込み空間には複数の埋め込み特徴が分布する)上の予め定義された位置に近づくように前記オートエンコーダを学習させるプロセッサを含む。
実施形態では、オートエンコーダを用いて文章のドメインを判断することができる。
一実施形態に係る文章のドメイン判断方法を説明するためのフローチャートである。 一実施形態に係る文章のドメイン判断方法を説明するための図である。 一実施形態に係る文章のドメイン判断方法を説明するための図である。 一実施形態に係る文章のドメイン判断方法を説明するための図である。 一実施形態に係る文章のドメイン判断方法を説明するための図である。 一実施形態に係る文章のドメイン判断のための学習方法を説明するためのフローチャートである。 一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。 一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。 一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。 一実施形態に係るドメイン判断装置の動作を説明するための図である。 一実施形態に係るドメイン判断装置の動作を説明するための図である。 一実施形態に係る装置の構成の例示図である。
本明細書に開示されている本発明の概念による実施形態に対して特定の構造的又は機能的な説明は、単に本発明の概念による実施形態を説明することを目的として例示されたものであり、本発明の概念による実施形態は、様々な形態で実施され、本明細書に説明された実施形態に限定されることはない。
第1又は第2などの用語を複数の構成要素を説明するために用いることができるが、このような用語は1つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第1構成要素は第2構成要素と命名することができ、同様に第2構成要素は第1構成要素としても命名することができる。
単数の表現は、文脈上明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、形態、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、1つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。
異なるように定義がされない限り、技術的又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものであると解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。
以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。
図1は、一実施形態に係る文章のドメイン判断方法を説明するためのフローチャートである。
図1を参照すると、一実施形態に係る文章のドメイン判断装置(以下、ドメイン判断装置と称する)は、オートエンコーダ(auto encoder)を用いて入力文章を表現している入力特徴から埋め込み特徴を生成する(S101)。オートエンコーダは、ニューラルネットワークの一種として、入力されたデータの次元を変換して効率よく埋め込みデータを探すためのニューラルネットワークである。例えば、オートエンコーダは、入力されたデータの次元縮小を行って埋め込みデータを生成する。一実施形態によると、オートエンコーダは、文章又は単語に関する入力データを符号化して埋め込み特徴を生成し得る。
オートエンコーダは、入力レイヤ、隠しレイヤ、及び出力レイヤを含み、ここで、入力レイヤのノード数と出力レイヤのノード数は同じである。入力レイヤから隠しレイヤにノードが活性化する過程を符号化又は埋め込みという。隠しレイヤから出力レイヤにノードが活性化する過程を復号化又は再構成という。入力レイヤ→隠しレイヤの構造と隠しレイヤ→出力レイヤの構造は互いに対称である。
一実施形態に係るオートエンコーダは、入力レイヤのノード数に対応する入力特徴を符号化して埋め込み特徴を生成し、埋め込み特徴を復号化して再構成特徴を生成する。再構成特徴はオートエンコーダの出力レイヤのノード数に対応し、埋め込み特徴は埋め込み特徴を生成する隠しレイヤのノード数に対応する。例えば、入力特徴、埋め込み特徴、及び再構成特徴の次元は、オートエンコーダの入力レイヤ、隠しレイヤ、及び出力レイヤによって決定され、ここで、入力特徴と再構成特徴の次元は互いに同じである。
オートエンコーダは、入力文章を表現している入力特徴から再構成特徴を復元する。オートエンコーダは、再構成特徴と入力特徴が互いに同一になるよう学習され、再構成エラーは、入力特徴と再構成特徴との間の差に基づいて定義される。再構成エラーが小さいほど、再構成特徴が表現している再構成文章と入力文章が互いに同一になるか類似になる。以下、図2を参照して一実施形態に係る埋め込み特徴の生成動作を説明する。
図2は、一実施形態に係る文章のドメイン判断方法を説明するための図である。
図2を参照すると、ドメイン判断装置201は、オートエンコーダ202を用いて入力文章203を表現している入力特徴204から埋め込み特徴205を生成する。以下、入力が文章である実施形態について説明するが、入力特徴204は、文章のみならず、単語、音素、形態素、発音記号単位、句、節、及び段落などの設計意図に応じて様々な形態に定義又は設計されたデータの特徴であり、実施形態は、このようなデータが含蓄している情報の類型を制限することはない。
ドメイン判断装置201は、オートエンコーダ202を用いて文章のドメインを判断する装置として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又はその組み合わせで実現される。オートエンコーダ202は、文章のドメイン判断に適するように予め学習され、ドメイン判断装置201は、学習されたオートエンコーダ202を用いて入力文章203のドメインを判断する。ドメイン判断装置201は、オートエンコーダ202を含んだり、外部のオートエンコーダ202を用いることができ、設計意図に応じて様々な方式で実現できる。オートエンコーダ202の学習に関する内容については、図6~図9を参照して後述する。
オートエンコーダ202によって生成された埋め込み特徴205は、オートエンコーダ内の隠しレイヤ212の活性化値、又は事前-活性化値であり、ベクトル又は関数のように表現される。隠しレイヤ212の事前-活性化値は、隠しレイヤ212の以前レイヤ211の活性化値であり得る。
入力文章203を表現している入力特徴204は、オートエンコーダ202内の入力レイヤに対応するワンホット(one hot)ベクトル、実数ベクトル、又は、関数のように表現され、再構成特徴は、オートエンコーダ202内に出力レイヤに対応するワンホットベクトル、実数ベクトル、又は、関数のように表現される。一実施形態によると、入力特徴204は、入力文章203からニューラルネットワークによって生成された埋め込み特徴であり得る。ドメイン判断装置201は、ニューラルネットワークによって生成された埋め込み特徴をオートエンコーダ202を用いて符号化する。この場合、埋め込み特徴が生成される。一実施形態によると、入力特徴202を生成するニューラルネットワーク又はオートエンコーダは、CNN(Convolutional Neural Network)、RNN(Recurrent Neural Network)、LSTM(Long Short Term Memory)及びGRU(Gated Recurrent Unit)のうち少なくとも1つによって実現される。一実施形態によると、入力特徴202を生成するニューラルネットワークは、オートエンコーダ202と結合してエンドツーエンド(end-to-end)の方式で実現され、この場合に入力特徴202を生成するニューラルネットワークとオートエンコーダ202はエンドツーエンドの方式で学習される。ただし、入力特徴202を生成するニューラルネットワーク又はオートエンコーダの構造は、設計意図に応じて様々な方式が採用されて応用される。
再び図1を参照すると、ドメイン判断装置は、複数の埋め込み特徴が分布している埋め込み空間上、埋め込み特徴の位置に基づいて入力文章のドメインを判断する(S102)。埋め込み空間は埋め込み特徴が分布する空間として、埋め込み特徴の次元により埋め込み空間の次元が定義されたり、埋め込み特徴を定義する関数により埋め込み空間が定義される。以下、図2を参照して一実施形態に係るドメイン判断動作を説明する。
図2を参照すると、ドメイン判断装置201は、文章のドメインを判断するためにオートエンコーダ202によって生成された埋め込み特徴205を活用することができるが、ここで、オートエンコーダ202は文章のドメイン判断のために予め学習され得る。
一実施形態によると、ドメイン判断装置201は、埋め込み空間上、埋め込み特徴205の位置と予め定義された位置との間の距離に基づいて入力文章203のドメインを判断する。ドメイン判断装置は、埋め込み特徴205の位置と予め定義された位置に基づいて、Lp-norm又はKL-divergence(Kullback-Leibler divergence;KLD)を算出し、算出結果に基づいて埋め込み特徴205の位置と予め定義された位置との間の距離を生成する。例えば、ドメイン判断装置は、埋め込み特徴205が関数として表現される場合、KL-divergenceのような様々なdivergence測定方式を用いて距離を算出する。ドメイン判断装置は、生成された距離を用いて入力文章のドメインを判断する。距離を算出するための方式には様々な方式が採用される。
一実施形態によると、オートエンコーダ202は、埋め込み空間上、埋め込み特徴205の位置に応じて文章のドメイン判断ができるよう学習されるため、予め学習されたオートエンコーダ202を用いるドメイン判断装置201は、データにより性能の偏差なしに正確なドメイン判断結果を生成することができる。また、ドメイン判断装置201は、埋め込み特徴205を分析して文章のドメインを判断するため、ドメイン判断結果を直接的に生成するニューラルネットワークとは異なってドメイン判断において安定した性能を示すことができる。
一実施形態によると、ドメイン判断装置201は、入力文章203のドメインを判断するために再構成エラーを追加的に考慮し得る。ドメイン判断装置201は、オートエンコーダ202を用いて埋め込み特徴205から再構成特徴を生成する。ドメイン判断装置201は、入力特徴204と再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置201は、再構成エラーと埋め込み特徴205の位置に基づいて入力文章203のドメインを判断する。ドメイン判断装置201は、埋め込み特徴205の位置だけではなく再構成エラーも考慮して、ドメイン判断の正確度を高めることができる。再構成エラーは、入力特徴204と再構成特徴との間の差又は損失関数によって定義され、ここで、損失関数は、MSE(Mean Square Error)形態、エントロピー(entropy)形態などに設計され得る。再構成エラーを定義する方式には様々な方式が採用されてもよい。
一実施形態によると、ドメイン判断装置201は、言語基盤の認識システムで認識の前処理ステップとして活用され得る。言語基盤の認識システムで文章の分析が実行される前に、ドメイン判断装置201は、文章のドメインを判断又は分類してデータ処理の効率を高めることができる。例えば、分析の対象となる文章に関するデータ量が極めて多い場合、ドメイン判断装置201は、文章のドメインを判断又は分類して分析の対象を分類し、または、減らし得る。
一実施形態によると、ドメイン判断装置201は、音声認識、翻訳、コミュニケーションシステムなど、文章を用いた学習システムから学習データを収集するために活用される。学習データは、学習の効率及び性能に重要な影響を及ぼすため、ドメイン判断装置201は、文章のドメインを判断又は分類して学習に適切な文章を学習システムに提供することができる。
一実施形態によると、ドメイン判断装置201は、埋め込み空間上、埋め込み特徴205の位置を分析し、入力文章203がドメイン文章又は非ドメイン文章であるか否かを判断する。ここで、ドメイン文章は特定ドメインに属する文章を意味し、非ドメイン文章は特定ドメインに属しない文章を意味する。ドメイン判断装置201は、埋め込み空間上、埋め込み特徴205の位置を分析し、複数のドメインのうち入力文章203が属するドメインを判断してもよい。例えば、ドメイン判断装置201は、予め定義されたドメインのうち入力文章203が法律ドメインに属するものと判断する。以下、図3~図5を参照して一実施形態に係るドメイン判断動作を説明する。
図3は、一実施形態に係る文章のドメイン判断方法を説明するための図である。
図3を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義された位置303との間の関係に基づいて入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断する。図3には、視覚的な説明のために埋め込み空間が3次元のように示されているが、埋め込み空間は、埋め込み特徴の次元又は関数により定義され、以下の通りである。
一実施形態によると、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が予め定義された位置303に近づくように学習される。予め定義された位置は設計意図に応じて多様に定義され、例えば、埋め込み空間上の原点として定義される。
ドメイン判断装置は、埋め込み特徴の位置301と予め定義された位置303との間の距離が閾値距離よりも小さい場合、入力文章がドメイン文章又は非ドメイン文章のうち非ドメイン文章であると判断する。ドメイン判断装置は、埋め込み特徴の位置302と予め定義された位置303との間の距離が閾値距離よりも大きい場合、入力文章がドメイン文章又は非ドメイン文章のうちドメイン文章であると判断する。閾値距離は、予め定義されたり学習によって導き出される。
一実施形態によると、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮する。ここで、オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴との間の複数の再構成エラーが小さくなるように学習される。ドメイン判断装置は、埋め込み特徴の位置302と予め定義された位置303との間の距離が閾値距離よりも大きい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも大きい場合、入力文章が非ドメイン文章であると判断する。ここで、閾値エラーは、予め定義されたり学習によって導き出される。
ドメイン判断装置を言語認識システムの前処理ステップで活用しようとする場合、ドメイン文章を非ドメイン文章として誤認することよりも、非ドメイン文章をドメイン文章として誤認することがドメイン判断性能にとって致命的である。この場合、入力文章がドメイン文章として判断する動作をより厳しく実行するようにドメイン判断装置を実現する必要がある。ここで、埋め込み特徴の位置302が予め定義された位置303から遠く離れていても、ドメイン判断装置は、再構成エラーが大きい場合、入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。ただし、非ドメイン文章をドメイン文章として誤認することよりも、ドメイン文章を非ドメイン文章として誤認することがもっと致命的であると判断される場合には、上述したものと反対にドメイン判断装置が実現される。
図4は、一実施形態に係る文章のドメイン判断方法を説明するための図である。
図4を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義された位置403との間の関係に基づいて、入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断する。ドメイン判断装置は、予め定義された位置403に近い埋め込み特徴401と、予め定義された位置403から遠く離れた埋め込み特徴402について、図3を参照して説明された実施形態とは反対に判断する。
一実施形態によると、オートエンコーダは、ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が予め定義された位置403に近づくように学習される。ドメイン判断装置は、埋め込み特徴の位置402と予め定義された位置403との間の距離が閾値距離よりも大きい場合、入力文章がドメイン文章又は非ドメイン文章のうち、非ドメイン文章であると判断する。ドメイン判断装置は、埋め込み特徴の位置401と予め定義された位置403との間の距離が閾値距離よりも小さい場合、入力文章がドメイン文章又は非ドメイン文章のうち、ドメイン文章であると判断する。
上述のように、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮し得る。ここで、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴の間の複数の再構成エラーが小さくなるように学習される。ドメイン判断装置は、埋め込み特徴の位置402と予め定義された位置403との間の距離が閾値距離よりも小さい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも小さい場合、入力文章が非ドメイン文章であると判断する。ここで、埋め込み特徴の位置401が予め定義された位置403に近くても、ドメイン判断装置は、再構成エラーが小さい場合に入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。
図5は、一実施形態に係る文章のドメイン判断方法を説明するための図である。
図5を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義されたドメイン(第1ドメイン、第2ドメイン、及び第3ドメイン)にそれぞれ対応する予め定義された位置504、505、及び506の間の関係に基づいて、予め定義されたドメイン(第1ドメイン、第2ドメイン、及び第3ドメイン)のうち入力文章が属するドメインを判断し得る。図3及び図4を参照して、入力文章がドメイン文章又は非ドメイン文章のうちいずれかの文章であるかを判断する実施形態について説明したが、ドメイン判断装置は、複数のドメインのうち入力文章が属するドメインを判断してもよい。
一実施形態によると、オートエンコーダは、ドメイン(第1ドメイン、第2ドメイン、及び第3ドメイン)にそれぞれ属するドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が、予め定義された位置504、505及び506にそれぞれ近づくように学習され得る。ドメイン判断装置は、位置504、505及び506のうち埋め込み特徴の位置502と最も近い位置505を識別し、埋め込み特徴の位置502と識別された位置505との間の距離が閾値距離よりも小さい場合、入力文章が位置505に対応するドメイン(第2ドメイン)に属するものと判断する。同様に、ドメイン判断装置は、埋め込み特徴の位置501に対応する入力文章が位置504に対応するドメイン(第1ドメイン)に属するものと判断し、埋め込み特徴の位置503に対応する入力文章が位置506に対応するドメイン(第3ドメイン)に属するものと判断する。ドメイン判断装置は、埋め込み特徴の位置507及び位置507と最も近い位置の間の距離が閾値距離よりも大きい場合、埋め込み特徴の位置507に対応する入力文章が非ドメイン文章であると判断する。ここで、非ドメイン文章は、ドメイン(第1ドメイン、第2ドメイン及び第3ドメイン)のいずれにも属しない文章であってもよい。
上述のように、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮できる。ここで、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴の間の再構成エラーが小さくなるように学習され得る。ドメイン判断装置は、埋め込み特徴の位置502と予め定義された位置505との間の距離が閾値距離よりも小さい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも小さい場合、入力文章が非ドメイン文章であると判断する。ここで、埋め込み特徴の位置502が予め定義された位置505に近くても、ドメイン判断装置は、再構成エラーが小さい場合に入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。
図6は、一実施形態に係る文章のドメイン判断のための学習方法を説明するためのフローチャートである。
図6を参照すると、文章のドメイン判断のための学習装置(以下、ドメイン判断学習装置)は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加する(S601)。ドメイン判断学習装置は、ドメイン判断のためにオートエンコーダを学習させる装置として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又は、その組み合わせで実現される。トレーニング特徴は、オートエンコーダを学習させるためのデータとして、オートエンコーダの入力レイヤに対応するベクトル又は関数として設計される。
ドメイン判断学習装置は、トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくようオートエンコーダを学習させる(S602)。ドメイン判断学習装置は、様々な学習方式を用いてオートエンコーダ内のノードの間の加重値を最適化し、実施形態は特定学習方式に制限されない。以下、図3~図5を参照して説明されたドメイン判断方法のためのそれぞれの学習方法について図7~図9を参照して後述する。
図7は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。
図7を参照すると、ドメイン判断学習装置は、複数のドメイン文章702を表現している複数の第1トレーニング特徴704をオートエンコーダ701に印加する。ドメイン判断学習装置は、複数の非ドメイン文章703を表現している複数の第2トレーニング特徴705をオートエンコーダ701に印加する。
ドメイン判断学習装置は、複数の第1トレーニング特徴704からオートエンコーダ701によって生成された複数の第1埋め込み特徴706を取得する。ドメイン判断学習装置は、複数の第1トレーニング特徴704からオートエンコーダ701によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第1埋め込み特徴706から生成された複数の再構成特徴と複数の第1トレーニング特徴704との間の複数の再構成エラー707が小さくなるようにオートエンコーダ701を学習させ得る。
ドメイン判断学習装置は、複数の第2トレーニング特徴705からオートエンコーダ701によって生成された複数の第2埋め込み特徴708を取得する。ドメイン判断学習装置は、複数の第2埋め込み特徴708の位置が埋め込み空間上の予め定義された位置に近づくようにオートエンコーダ701を学習させ得る。
図8は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。
図8を参照すると、ドメイン判断学習装置は、複数のドメイン文章802を表現している複数の第1トレーニング特徴804をオートエンコーダ801に印加する。ドメイン判断学習装置は、複数の非ドメイン文章803を表現している複数の第2トレーニング特徴805をオートエンコーダ801に印加する。ドメイン判断学習装置は、埋め込み空間上、予め定義された位置に近い埋め込み特徴と予め定義された位置から遠く離れた埋め込み特徴について図7を参照して説明された実施形態とは反対にオートエンコーダを学習させ得る。
ドメイン判断学習装置は、複数の第1トレーニング特徴804からオートエンコーダ801によって生成された複数の第1埋め込み特徴806を取得する。ドメイン判断学習装置は、複数の第1埋め込み特徴806の位置が埋め込み空間上の予め定義された位置に近づくようオートエンコーダ801を学習させ得る。
ドメイン判断学習装置は、複数の第2トレーニング特徴805からオートエンコーダ801によって生成された複数の第2埋め込み特徴807を取得する。ドメイン判断学習装置は、複数の第2トレーニング特徴805からオートエンコーダ801によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第2埋め込み特徴807から生成された複数の再構成特徴と複数の第2トレーニング特徴805との間の複数の再構成エラー808が小さくなるようにオートエンコーダ801を学習させ得る。
図9は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。
図9を参照すると、ドメイン判断学習装置は、複数の第1ドメイン文章902を表現している複数の第1トレーニング特徴904をオートエンコーダ901に印加する。ドメイン判断学習装置は、複数の第2ドメイン文章903を表現している複数の第2トレーニング特徴905をオートエンコーダ901に印加する。ドメイン判断学習装置は、複数の非ドメイン文章908を表現している複数の第3トレーニング特徴909をオートエンコーダ901に印加する。図7及び図8を参照して、入力文章がドメイン文章又は非ドメイン文章のうちいずれかの文章であるかを判断するように、オートエンコーダを学習させる実施形態について説明したが、ドメイン判断学習装置は、複数のドメインのうち入力文章が属するドメインを判断するようオートエンコーダを学習させ得る。
ドメイン判断学習装置は、複数の第1トレーニング特徴904からオートエンコーダ901によって生成された複数の第1埋め込み特徴906の位置を取得する。ドメイン判断学習装置は、複数の第1埋め込み特徴906の位置が埋め込み空間上の第1位置に近づくようオートエンコーダ901を学習させ得る。
ドメイン判断学習装置は、複数の第2トレーニング特徴905からオートエンコーダ901によって生成された複数の第2埋め込み特徴907の位置を取得する。ドメイン判断学習装置は、複数の第2埋め込み特徴905の位置が埋め込み空間上の第2位置に近づくようオートエンコーダ901を学習させ得る。
ドメイン判断学習装置は、複数の第3トレーニング特徴909からオートエンコーダ901によって生成された複数の第3埋め込み特徴910を取得する。ドメイン判断学習装置は、複数の第3埋め込み特徴910からオートエンコーダ901によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第3埋め込み特徴910から生成された複数の再構成特徴と複数の第3トレーニング特徴909との間の複数の再構成エラー911が小さくなるようオートエンコーダ901を学習させ得る。
図10は、一実施形態に係るドメイン判断装置の動作を説明するための図である。
図10を参照すると、ドメイン判断装置は、入力文章がドメイン文章又は非ドメイン文章のうちのいずれかに該当するかを判断する。例えば、ドメイン判断装置は、入力文章である「原告は被告に不動産売買契約の約定により契約金を支給した」がドメイン文章として判断され、入力文章である「心不全患者は不整脈の危険のためにカフェイン含量の高いコーヒーは控えることがよい」が非ドメイン文章として判断する。
図11は、一実施形態に係るドメイン判断装置の動作を説明するための図である。
図11を参照すると、ドメイン判断装置は、入力文章が複数のドメインのうちどこに属するかを判断する。例えば、ドメイン判断装置は、入力文章である「原告は被告に不動産売買契約の約定により契約金を支給した」が法律ドメインに属するものと判断し、入力文章である「心不全患者は不整脈の危険のためにカフェイン含量の高いコーヒーは控えることがよい」が医療ドメインに属するものと判断し、入力文章である「S電子が半導体事業で歴代最大の実績を上げた」がニュースドメインに属するものと判断し、入力文章である「私はとても可愛い」が非ドメイン文章として判断する。一実施形態によると、ドメイン判断装置は、言語基盤の認識システムで文章のドメインを判断するために活用される。
図12は一実施形態に係る装置の構成の例示図である。
図12を参照すると、装置1201は、プロセッサ1202及びメモリ1203を含む。一実施形態に係る装置1201は、上述したドメイン判断装置又はドメイン判断学習装置であり得る。プロセッサ1202は、図1~図11を参照して前述した少なくとも1つの装置を含んだり、図1~図11によって前述した少なくとも1つの方法を行ってもよい。メモリ1203は、上述したドメイン判断方法又はドメイン判断学習方法に関する情報を格納したり、上述したドメイン判断方法又はドメイン判断学習方法が具現されたプログラムを格納する。メモリ1203は、揮発性メモリ又は不揮発性メモリであってもよい。
プロセッサ1202はプログラムを実行し、装置1201を制御する。プロセッサ1202によって実行されるプログラムのコードは、メモリ1203に格納される。装置1201は、入出力装置(図示せず)によって外部装置(例えば、パーソナルコンピュータ又はネットワーク)に接続され、データを交換する。
以上、説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ALU(arithmetic logic unit)、デジタル信号プロセッサ(digital signal processor)、マイクロコンピュータ、FPA(field programmable array)、PLU(programmable logic unit)、マイクロプロセッサー、又は命令(instruction)を実行して応答する異なる装置のように、1つ以上の汎用コンピュータ又は専用コンピュータを用いて具現化される。処理装置は、オペレーティングシステム(OS)及びオペレーティングシステム上で実行される1つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は1つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者には、処理装置が複数の処理要素(processing element)及び/又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は1つのプロセッサ及び1つのコントローラを含む。または、並列プロセッサ(parallel processor)のような、他の処理構成も可能である。
ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの1つ以上の組み合わせを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に対して命令する。ソフトウェア及び/又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは1つ以上のコンピュータ読み取り可能な記録媒体に格納される。
本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例は、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD-ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気-光媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例は、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために1つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。
上述のように実施形態をたとえ限定された図面によって説明したとしても、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び/又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。
201 ドメイン判断装置
202 オートエンコーダ
203 入力文章
204 入力特徴
205 埋め込み特徴
701 オートエンコーダ
702 複数のドメイン文章
703 複数の非ドメイン文章
704 複数の第1トレーニング特徴
705 複数の第2トレーニング特徴
706 複数の第1埋め込み特徴
707 複数の再構成エラー
708 複数の第2埋め込み特徴

Claims (19)

  1. 文章のドメイン判断方法であって、
    ドメイン判断装置によって、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、
    前記ドメイン判断装置によって、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップと、
    含み、
    前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み、
    前記オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、
    前記判断するステップは、さらに、前記距離が閾値距離よりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含む、
    方法。
  2. 文章のドメイン判断方法であって、
    ドメイン判断装置によって、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、
    前記ドメイン判断装置によって、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップと、
    を含み、
    前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み、
    前記オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、
    前記判断するステップは、前記距離が閾値距離よりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み、
    前記判断するステップは、
    前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
    前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
    前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップと、
    を含む、
    方法。
  3. 前記判断するステップは、
    前記距離が前記閾値距離よりも大きい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
    前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
    前記再構成エラーが閾値エラーよりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップと、
    を含む、請求項に記載の方法。
  4. 前記予め定義された位置は前記埋め込み空間上の原点である、
    請求項1ないし3のうちいずれか一項に記載の方法。
  5. 前記判断するステップは、
    前記埋め込み特徴の位置及び前記予め定義された位置に基づいて、Lp-norm又はKL-divergence(Kullback-Leibler divergence:KLD)を算出するステップと、
    前記算出結果に基づいて、前記埋め込み特徴の位置及び前記予め定義された位置の間の距離を生成するステップと、
    を含む、請求項1ないし3のうちいずれか一項に記載の方法。
  6. 前記判断するステップは、
    前記オートエンコーダを用いて、前記埋め込み特徴から再構成特徴を生成するステップと、
    前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
    前記再構成エラー及び前記位置に基づいて前記入力文章のドメインを判断するステップと、
    を含む、請求項1ないしのうちいずれか一項に記載の方法。
  7. 前記埋め込み特徴は、前記オートエンコーダ内の隠しレイヤの活性化値又は事前-活性化値である、
    請求項1ないしのうちいずれか一項に記載の方法。
  8. 前記入力特徴は、前記入力文章からニューラルネットワークによって生成された埋め込み特徴である、
    請求項1ないしのうちいずれか一項に記載の方法。
  9. 前記入力特徴は、前記オートエンコーダ内の入力レイヤに対応するワンホットベクトル、実数ベクトル、及び関数のうち少なくとも1つ又はその組み合わせを含む、
    請求項1ないしのうちいずれか一項に記載の方法。
  10. 前記再構成特徴は、前記オートエンコーダ内の出力レイヤに対応するワンホットベクトル、実数ベクトル、及び関数のうち少なくとも1つ又はその組み合わせを含む、
    請求項に記載の方法。
  11. 前記判断するステップは、予め定義された複数のドメインにそれぞれ対応する予め定義された位置と、前記位置に基づいて前記ドメインのうち前記入力文章が属するドメインを判断するステップを含む、
    請求項1に記載の方法。
  12. 前記オートエンコーダは、前記ドメインにそれぞれ属する複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記位置にそれぞれ近づくように学習され、
    前記入力文章が属するドメインを判断するステップは、
    前記位置のうち前記位置と最も近い第2位置を識別するステップと、
    前記位置と前記第2位置の間の距離が閾値距離よりも小さいか否かに基づいて、前記入力文章が前記第2位置に対応する第2ドメインに属するものと判断するステップと、
    を含む、請求項11に記載の方法。
  13. 前記入力文章が前記第2ドメインに属するものと判断するステップは、
    前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
    前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
    前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が非ドメイン文章(前記非ドメイン文章は、前記ドメインに属しない文章である)であるものと判断するステップと、
    を含む、請求項12に記載の方法。
  14. 文章のドメイン判断のための学習方法であって、
    トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
    前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
    含み、
    前記オートエンコーダに印加するステップは、
    ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、
    非ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップと、
    を含み、
    前記オートエンコーダを学習させるステップは、
    前記第1トレーニング特徴から生成された第1埋め込み特徴を取得するステップと、
    前記第1埋め込み特徴から生成された再構成特徴と前記第1トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
    前記第2トレーニング特徴から生成された第2埋め込み特徴の位置が前記埋め込み空間上の第2位置に近づくように前記オートエンコーダを学習させるステップと、
    を含む、
    方法。
  15. 文章のドメイン判断のための学習方法であって、
    トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
    前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
    を含み、
    前記オートエンコーダに印加するステップは、
    ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、
    非ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップと、
    を含み、
    前記オートエンコーダを学習させるステップは、
    前記第1トレーニング特徴から生成された第1埋め込み特徴の位置が前記埋め込み空間上の第1位置に近づくように前記オートエンコーダを学習させるステップと、
    前記第2トレーニング特徴から生成された第2埋め込み特徴を取得するステップと、
    前記第2埋め込み特徴から生成された再構成特徴と前記第2トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
    を含む、
    方法。
  16. 文章のドメイン判断のための学習方法であって、
    トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
    前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
    を含み、
    前記オートエンコーダに印加するステップは、
    第1ドメイン文章を表現している第1トレーニング特徴を前記オートエンコーダに印加するステップと、
    第2ドメイン文章を表現している第2トレーニング特徴を前記オートエンコーダに印加するステップと、
    非ドメイン文章を表現している第3トレーニング特徴を前記オートエンコーダに印加するステップであり、前記非ドメイン文章は、複数のドメインに属しない文章である、ステップと、
    を含み、
    前記オートエンコーダを学習させるステップは、
    前記第1トレーニング特徴から生成された第1埋め込み特徴の位置が前記埋め込み空間上の第1位置に近づくように前記オートエンコーダを学習させるステップと、
    前記第2トレーニング特徴から生成された第2埋め込み特徴の位置が前記埋め込み空間上の第2位置に近づくように前記オートエンコーダを学習させるステップと、
    前記第3トレーニング特徴から生成された第3埋め込み特徴を取得するステップと、
    前記第3埋め込み特徴から生成された再構成特徴と前記第3トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
    を含む、
    方法。
  17. ハードウェアと結合して請求項1ないし請求項16のうちいずれか一項に記載の方法を実行させるために記録媒体に格納されたコンピュータプログラム。
  18. 文章のドメイン判断装置であって、
    プロセッサ、を含み、
    請求項1ないし請求項13のうちいずれか一項に記載の方法を実行させる、
    装置。
  19. 文章のドメイン判断のための学習装置であって、
    プロセッサ、を含み、
    請求項14ないし請求項16のうちいずれか一項に記載の方法を実行させる、
    装置。
JP2018042977A 2017-08-14 2018-03-09 文章のドメイン判断方法及び装置 Active JP7094121B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170102960A KR102410825B1 (ko) 2017-08-14 2017-08-14 문장의 도메인 판단 방법 및 장치
KR10-2017-0102960 2017-08-14

Publications (2)

Publication Number Publication Date
JP2019036286A JP2019036286A (ja) 2019-03-07
JP7094121B2 true JP7094121B2 (ja) 2022-07-01

Family

ID=60923287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018042977A Active JP7094121B2 (ja) 2017-08-14 2018-03-09 文章のドメイン判断方法及び装置

Country Status (5)

Country Link
US (1) US10528666B2 (ja)
EP (1) EP3444726A1 (ja)
JP (1) JP7094121B2 (ja)
KR (1) KR102410825B1 (ja)
CN (1) CN109388797B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023683B2 (en) * 2019-03-06 2021-06-01 International Business Machines Corporation Out-of-domain sentence detection
KR102264899B1 (ko) * 2019-03-15 2021-06-11 에스케이텔레콤 주식회사 자연어 처리 시스템, 그 학습 방법 및 프로그램이 기록된 컴퓨터 판독가능한 기록매체
US11443137B2 (en) 2019-07-31 2022-09-13 Rohde & Schwarz Gmbh & Co. Kg Method and apparatus for detecting signal features
CN110688446B (zh) * 2019-08-23 2023-04-14 重庆兆光科技股份有限公司 一种句义数学空间表示方法、***、介质和设备
CN110807332B (zh) * 2019-10-30 2024-02-27 腾讯科技(深圳)有限公司 语义理解模型的训练方法、语义处理方法、装置及存储介质
KR102358485B1 (ko) * 2019-10-30 2022-02-04 주식회사 솔트룩스 도메인 자동 분류 대화 시스템
KR102579293B1 (ko) * 2021-03-16 2023-09-18 주식회사 웨이센 복수 의미 유형 단어의 단일 의미 유형 단어로의 라벨링 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528627A (ja) 2006-02-27 2009-08-06 マイクロソフト コーポレーション 伝搬されるドキュメントの関連性を用いたランキング機能のトレーニング
JP2014112283A (ja) 2012-12-05 2014-06-19 Docomo Technology Inc 情報処理装置、情報処理方法、およびプログラム
CN105488151A (zh) 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
JP2017054214A (ja) 2015-09-07 2017-03-16 ヤフー株式会社 判定装置、学習装置、情報配信装置、判定方法及び判定プログラム
US20180101534A1 (en) 2016-10-12 2018-04-12 Salesforce.Com, Inc. Accounting for Positional Bias in A Document Retrieval System Using Machine Learning

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000046701A1 (en) * 1999-02-08 2000-08-10 Huntsman Ici Chemicals Llc Method for retrieving semantically distant analogies
JP2004198597A (ja) * 2002-12-17 2004-07-15 Advanced Telecommunication Research Institute International 音声認識装置および文分類装置としてコンピュータを動作させるコンピュータプログラム、階層化された言語モデルを作成する方法を実現する様にコンピュータを動作させるコンピュータプログラム、および記憶媒体
HUE030528T2 (en) 2012-03-15 2017-05-29 Cortical Io Gmbh Process, equipment and product for semantic processing of texts
KR101309042B1 (ko) 2012-09-17 2013-09-16 포항공과대학교 산학협력단 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
KR20140138011A (ko) 2013-05-24 2014-12-03 삼성전자주식회사 음성 인식 장치 및 그 제어 방법
CN103902655B (zh) * 2014-02-28 2017-01-04 小米科技有限责任公司 聚类方法、装置及终端设备
US10181098B2 (en) * 2014-06-06 2019-01-15 Google Llc Generating representations of input sequences using neural networks
US20160055240A1 (en) 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
CN105824797B (zh) * 2015-01-04 2019-11-12 华为技术有限公司 一种评价语义相似度的方法、装置和***
US9842105B2 (en) * 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US9990361B2 (en) * 2015-10-08 2018-06-05 Facebook, Inc. Language independent representations
US11205103B2 (en) * 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
CN106897270B (zh) * 2017-03-10 2020-01-24 吉林大学 一种文本中知识领域识别方法及***
US10380259B2 (en) * 2017-05-22 2019-08-13 International Business Machines Corporation Deep embedding for natural language content based on semantic dependencies

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009528627A (ja) 2006-02-27 2009-08-06 マイクロソフト コーポレーション 伝搬されるドキュメントの関連性を用いたランキング機能のトレーニング
JP2014112283A (ja) 2012-12-05 2014-06-19 Docomo Technology Inc 情報処理装置、情報処理方法、およびプログラム
JP2017054214A (ja) 2015-09-07 2017-03-16 ヤフー株式会社 判定装置、学習装置、情報配信装置、判定方法及び判定プログラム
CN105488151A (zh) 2015-11-27 2016-04-13 小米科技有限责任公司 参考文档的推荐方法及装置
US20180101534A1 (en) 2016-10-12 2018-04-12 Salesforce.Com, Inc. Accounting for Positional Bias in A Document Retrieval System Using Machine Learning

Also Published As

Publication number Publication date
CN109388797B (zh) 2024-02-02
KR20190018246A (ko) 2019-02-22
US10528666B2 (en) 2020-01-07
EP3444726A1 (en) 2019-02-20
CN109388797A (zh) 2019-02-26
US20190050395A1 (en) 2019-02-14
KR102410825B1 (ko) 2022-06-20
JP2019036286A (ja) 2019-03-07

Similar Documents

Publication Publication Date Title
JP7094121B2 (ja) 文章のドメイン判断方法及び装置
US10460726B2 (en) Language processing method and apparatus
KR102589638B1 (ko) 문장 생성 장치 및 방법
US10540964B2 (en) Method and apparatus for processing natural language, method and apparatus for training natural language processing model
JP7220545B2 (ja) 機械翻訳方法及び装置
US10714077B2 (en) Apparatus and method of acoustic score calculation and speech recognition using deep neural networks
WO2019200923A1 (zh) 基于拼音的语义识别方法、装置以及人机对话***
US11468324B2 (en) Method and apparatus with model training and/or sequence recognition
US11901047B2 (en) Medical visual question answering
US20200192985A1 (en) Method and apparatus with machine translation
Viji et al. A hybrid approach of Weighted Fine-Tuned BERT extraction with deep Siamese Bi–LSTM model for semantic text similarity identification
Singh et al. HINDIA: a deep-learning-based model for spell-checking of Hindi language
KR20210083986A (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
US20230237993A1 (en) Systems and Methods for Training Dual-Mode Machine-Learned Speech Recognition Models
JP2023545994A (ja) 敵対的攻撃を防ぐための質問回答対話システムのトレーニング
EP3910625A2 (en) Method and apparatus for utterance time estimation
US20180060730A1 (en) Leveraging class information to initialize a neural network langauge model
KR20200132619A (ko) 구어에서 수어로의 주의 기반 인공신경망 기계 번역 방법 및 그 장치
US11244166B2 (en) Intelligent performance rating
CN113066510B (zh) 一种元音弱读检测方法及装置
Xia et al. Sequence generation with target attention
KR102413050B1 (ko) 문서 요약 방법 및 장치
US11501761B2 (en) Method and apparatus for speech recognition
Li et al. Attention-based recurrent neural network for sequence labeling
KR20200080368A (ko) 문서의 컨텍스트 이상문장 검출장치, 이를 위한 방법 및 이 방법을 실행시키기 위한 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210216

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220621

R150 Certificate of patent or registration of utility model

Ref document number: 7094121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150