JP7094121B2

JP7094121B2 - 文章のドメイン判断方法及び装置

Info

Publication number: JP7094121B2
Application number: JP2018042977A
Authority: JP
Inventors: 允泓閔
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-08-14
Filing date: 2018-03-09
Publication date: 2022-07-01
Anticipated expiration: 2038-03-09
Also published as: CN109388797B; KR20190018246A; US10528666B2; EP3444726A1; CN109388797A; US20190050395A1; KR102410825B1; JP2019036286A

Description

本発明は、文章のドメイン判断に関する。

入力された文章が現在関心のある作業（ｔａｓｋ）に関わっているかを区分することは、言語基盤の認識システムにおいて重要である。文章のドメインを判断したり非ドメイン文章（ｏｕｔ－ｏｆ－ｄｏｍａｉｎｓｅｎｔｅｎｃｅ）を検出する方式が提案されている。

非ドメイン文章の検出方式で、ドメイン文章（ｉｎ－ｄｏｍａｉｎｓｅｎｔｅｎｃｅ）と非ドメイン文章とを区分するための閾値が採用される場合、学習する度に新しい閾値を導き出さなければならないという、効率性が低下する恐れがある。非ドメイン文章の検出方式において、ドメイン文章と非ドメイン文章を明示的に区分する原理が採用されていない場合、データに応じてドメイン判断の性能の偏差が大きくなる。ここで、学習の効率を改善してドメイン判断の性能を高めるためのドメイン判断技術が求められている。

本発明の目的は、オートエンコーダを用いて文章のドメインを判断することにある。

一実施形態に係る文章のドメイン判断方法は、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップとを含む。

一実施形態に係る前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み得る。

一実施形態に係る前記オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、前記判断するステップは、前記距離が閾値距離よりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み得る。

一実施形態に係る前記判断するステップは、前記距離が前記閾値距離よりも大きい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップとを含み得る。

一実施形態に係る前記オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、前記判断するステップは、前記距離が閾値距離よりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み得る。

一実施形態に係る前記判断するステップは、前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップとを含み得る。

一実施形態に係る前記予め定義された位置は前記埋め込み空間上の原点であり得る。

一実施形態に係る前記ドメインを判断するステップは、前記埋め込み特徴の位置及び前記予め定義された位置に基づいて、Ｌｐ－ｎｏｒｍ又はＫＬ－ｄｉｖｅｒｇｅｎｃｅ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ：ＫＬＤ）を算出するステップと、前記算出結果に基づいて、前記埋め込み特徴の位置及び前記予め定義された位置の間の距離を生成するステップとを含み得る。

一実施形態に係る前記判断するステップは、前記オートエンコーダを用いて、前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラー及び前記位置に基づいて前記入力文章のドメインを判断するステップとを含み得る。

一実施形態に係る前記埋め込み特徴は、前記オートエンコーダ内の隠しレイヤの活性化値又は事前－活性化値であり得る。

一実施形態に係る前記入力特徴は、前記入力文章からニューラルネットワークによって生成された埋め込み特徴であり得る。

一実施形態に係る前記判断するステップは、予め定義された複数のドメインにそれぞれ対応する予め定義された位置と、前記位置に基づいて前記ドメインのうち前記入力文章が属するドメインを判断するステップを含み得る。

一実施形態に係る前記オートエンコーダは、前記ドメインにそれぞれ属する複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記位置にそれぞれ近づくように学習され、前記入力文章が属するドメインを判断するステップは、前記位置のうち前記位置と最も近い第２位置を識別するステップと、前記位置と前記第２位置の間の距離が閾値距離よりも小さいか否かに基づいて、前記入力文章が前記第２位置に対応する第２ドメインに属するものと判断するステップとを含み得る。

一実施形態に係る前記入力文章が前記第２ドメインに属するものと判断するステップは、前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が非ドメイン文章（前記非ドメイン文章は、前記ドメインに属しない文章である）であるものと判断するステップとを含み得る。

一実施形態に係る文章のドメイン判断のための学習方法は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップと、前記トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間（前記埋め込み空間には、複数の埋め込み特徴が分布する）上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップとを含む。

一実施形態に係る前記オートエンコーダに印加するステップは、ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第１トレーニング特徴から生成された第１埋め込み特徴を取得するステップと、前記第１埋め込み特徴から生成された再構成特徴と前記第１トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、前記第２トレーニング特徴から生成された第２埋め込み特徴の位置が前記埋め込み空間上の第２位置に近づくように前記オートエンコーダを学習させるステップとを含み得る。

一実施形態に係る前記オートエンコーダに印加するステップは、ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第１トレーニング特徴から生成された第１埋め込み特徴の位置が前記埋め込み空間上の第１位置に近づくように前記オートエンコーダを学習させるステップと、前記第２トレーニング特徴から生成された第２埋め込み特徴を取得するステップと、前記第２埋め込み特徴から生成された再構成特徴と前記第２トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップとを含み得る。

一実施形態に係る前記オートエンコーダに印加するステップは、第１ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、第２ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップと、非ドメイン文章（前記非ドメイン文章は、複数のドメインに属しない文章である）を表現している第３トレーニング特徴を前記オートエンコーダに印加するステップとを含み、前記オートエンコーダを学習させるステップは、前記第１トレーニング特徴から生成された第１埋め込み特徴の位置が前記埋め込み空間上の第１位置に近づくように前記オートエンコーダを学習させるステップと、前記第２トレーニング特徴から生成された第２埋め込み特徴の位置が前記埋め込み空間上の第２位置に近づくように前記オートエンコーダを学習させるステップと、前記第３トレーニング特徴から生成された第３埋め込み特徴を取得するステップと、前記第３埋め込み特徴から生成された再構成特徴と前記第３トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップとを含み得る。

一実施形態に係る文章のドメイン判断装置は、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成し、複数の埋め込み特徴が分布している埋め込み空間上、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するプロセッサとを含む。

一実施形態に係る文章のドメイン判断のための学習装置は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加し、前記トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間（前記埋め込み空間には複数の埋め込み特徴が分布する）上の予め定義された位置に近づくように前記オートエンコーダを学習させるプロセッサを含む。

実施形態では、オートエンコーダを用いて文章のドメインを判断することができる。

一実施形態に係る文章のドメイン判断方法を説明するためのフローチャートである。一実施形態に係る文章のドメイン判断方法を説明するための図である。一実施形態に係る文章のドメイン判断方法を説明するための図である。一実施形態に係る文章のドメイン判断方法を説明するための図である。一実施形態に係る文章のドメイン判断方法を説明するための図である。一実施形態に係る文章のドメイン判断のための学習方法を説明するためのフローチャートである。一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。一実施形態に係るドメイン判断装置の動作を説明するための図である。一実施形態に係るドメイン判断装置の動作を説明するための図である。一実施形態に係る装置の構成の例示図である。

本明細書に開示されている本発明の概念による実施形態に対して特定の構造的又は機能的な説明は、単に本発明の概念による実施形態を説明することを目的として例示されたものであり、本発明の概念による実施形態は、様々な形態で実施され、本明細書に説明された実施形態に限定されることはない。

第１又は第２などの用語を複数の構成要素を説明するために用いることができるが、このような用語は１つの構成要素を他の構成要素から区別する目的としてのみ解釈されなければならない。例えば、第１構成要素は第２構成要素と命名することができ、同様に第２構成要素は第１構成要素としても命名することができる。

単数の表現は、文脈上明白に異なる意味をもたない限り、複数の表現を含む。本明細書において、「含む」又は「有する」等の用語は、明細書上に記載した特徴、形態、ステップ、動作、構成要素、部品又はこれらを組み合わせたものが存在することを示すものであって、１つ又はそれ以上の他の特徴や数字、ステップ、動作、構成要素、部品、又はこれを組み合わせたものなどの存在又は付加の可能性を予め排除しないものとして理解しなければならない。

異なるように定義がされない限り、技術的又は科学的な用語を含むここで用いる全ての用語は、本実施形態が属する技術分野で通常の知識を有する者によって一般的に理解されるものと同じ意味を有する。一般的に用いられる予め定義された用語は、関連技術の文脈上で有する意味と一致する意味を有するものであると解釈すべきであって、本明細書で明白に定義しない限り、理想的又は過度に形式的な意味として解釈されることはない。

以下、実施形態を添付する図面を参照しながら詳細に説明する。各図面に提示された同一の参照符号は同一の部材を示す。

図１は、一実施形態に係る文章のドメイン判断方法を説明するためのフローチャートである。

図１を参照すると、一実施形態に係る文章のドメイン判断装置（以下、ドメイン判断装置と称する）は、オートエンコーダ（ａｕｔｏｅｎｃｏｄｅｒ）を用いて入力文章を表現している入力特徴から埋め込み特徴を生成する（Ｓ１０１）。オートエンコーダは、ニューラルネットワークの一種として、入力されたデータの次元を変換して効率よく埋め込みデータを探すためのニューラルネットワークである。例えば、オートエンコーダは、入力されたデータの次元縮小を行って埋め込みデータを生成する。一実施形態によると、オートエンコーダは、文章又は単語に関する入力データを符号化して埋め込み特徴を生成し得る。

オートエンコーダは、入力レイヤ、隠しレイヤ、及び出力レイヤを含み、ここで、入力レイヤのノード数と出力レイヤのノード数は同じである。入力レイヤから隠しレイヤにノードが活性化する過程を符号化又は埋め込みという。隠しレイヤから出力レイヤにノードが活性化する過程を復号化又は再構成という。入力レイヤ→隠しレイヤの構造と隠しレイヤ→出力レイヤの構造は互いに対称である。

一実施形態に係るオートエンコーダは、入力レイヤのノード数に対応する入力特徴を符号化して埋め込み特徴を生成し、埋め込み特徴を復号化して再構成特徴を生成する。再構成特徴はオートエンコーダの出力レイヤのノード数に対応し、埋め込み特徴は埋め込み特徴を生成する隠しレイヤのノード数に対応する。例えば、入力特徴、埋め込み特徴、及び再構成特徴の次元は、オートエンコーダの入力レイヤ、隠しレイヤ、及び出力レイヤによって決定され、ここで、入力特徴と再構成特徴の次元は互いに同じである。

オートエンコーダは、入力文章を表現している入力特徴から再構成特徴を復元する。オートエンコーダは、再構成特徴と入力特徴が互いに同一になるよう学習され、再構成エラーは、入力特徴と再構成特徴との間の差に基づいて定義される。再構成エラーが小さいほど、再構成特徴が表現している再構成文章と入力文章が互いに同一になるか類似になる。以下、図２を参照して一実施形態に係る埋め込み特徴の生成動作を説明する。

図２は、一実施形態に係る文章のドメイン判断方法を説明するための図である。

図２を参照すると、ドメイン判断装置２０１は、オートエンコーダ２０２を用いて入力文章２０３を表現している入力特徴２０４から埋め込み特徴２０５を生成する。以下、入力が文章である実施形態について説明するが、入力特徴２０４は、文章のみならず、単語、音素、形態素、発音記号単位、句、節、及び段落などの設計意図に応じて様々な形態に定義又は設計されたデータの特徴であり、実施形態は、このようなデータが含蓄している情報の類型を制限することはない。

ドメイン判断装置２０１は、オートエンコーダ２０２を用いて文章のドメインを判断する装置として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又はその組み合わせで実現される。オートエンコーダ２０２は、文章のドメイン判断に適するように予め学習され、ドメイン判断装置２０１は、学習されたオートエンコーダ２０２を用いて入力文章２０３のドメインを判断する。ドメイン判断装置２０１は、オートエンコーダ２０２を含んだり、外部のオートエンコーダ２０２を用いることができ、設計意図に応じて様々な方式で実現できる。オートエンコーダ２０２の学習に関する内容については、図６～図９を参照して後述する。

オートエンコーダ２０２によって生成された埋め込み特徴２０５は、オートエンコーダ内の隠しレイヤ２１２の活性化値、又は事前－活性化値であり、ベクトル又は関数のように表現される。隠しレイヤ２１２の事前－活性化値は、隠しレイヤ２１２の以前レイヤ２１１の活性化値であり得る。

入力文章２０３を表現している入力特徴２０４は、オートエンコーダ２０２内の入力レイヤに対応するワンホット（ｏｎｅｈｏｔ）ベクトル、実数ベクトル、又は、関数のように表現され、再構成特徴は、オートエンコーダ２０２内に出力レイヤに対応するワンホットベクトル、実数ベクトル、又は、関数のように表現される。一実施形態によると、入力特徴２０４は、入力文章２０３からニューラルネットワークによって生成された埋め込み特徴であり得る。ドメイン判断装置２０１は、ニューラルネットワークによって生成された埋め込み特徴をオートエンコーダ２０２を用いて符号化する。この場合、埋め込み特徴が生成される。一実施形態によると、入力特徴２０２を生成するニューラルネットワーク又はオートエンコーダは、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）及びＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）のうち少なくとも１つによって実現される。一実施形態によると、入力特徴２０２を生成するニューラルネットワークは、オートエンコーダ２０２と結合してエンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ）の方式で実現され、この場合に入力特徴２０２を生成するニューラルネットワークとオートエンコーダ２０２はエンドツーエンドの方式で学習される。ただし、入力特徴２０２を生成するニューラルネットワーク又はオートエンコーダの構造は、設計意図に応じて様々な方式が採用されて応用される。

再び図１を参照すると、ドメイン判断装置は、複数の埋め込み特徴が分布している埋め込み空間上、埋め込み特徴の位置に基づいて入力文章のドメインを判断する（Ｓ１０２）。埋め込み空間は埋め込み特徴が分布する空間として、埋め込み特徴の次元により埋め込み空間の次元が定義されたり、埋め込み特徴を定義する関数により埋め込み空間が定義される。以下、図２を参照して一実施形態に係るドメイン判断動作を説明する。

図２を参照すると、ドメイン判断装置２０１は、文章のドメインを判断するためにオートエンコーダ２０２によって生成された埋め込み特徴２０５を活用することができるが、ここで、オートエンコーダ２０２は文章のドメイン判断のために予め学習され得る。

一実施形態によると、ドメイン判断装置２０１は、埋め込み空間上、埋め込み特徴２０５の位置と予め定義された位置との間の距離に基づいて入力文章２０３のドメインを判断する。ドメイン判断装置は、埋め込み特徴２０５の位置と予め定義された位置に基づいて、Ｌｐ－ｎｏｒｍ又はＫＬ－ｄｉｖｅｒｇｅｎｃｅ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ；ＫＬＤ）を算出し、算出結果に基づいて埋め込み特徴２０５の位置と予め定義された位置との間の距離を生成する。例えば、ドメイン判断装置は、埋め込み特徴２０５が関数として表現される場合、ＫＬ－ｄｉｖｅｒｇｅｎｃｅのような様々なｄｉｖｅｒｇｅｎｃｅ測定方式を用いて距離を算出する。ドメイン判断装置は、生成された距離を用いて入力文章のドメインを判断する。距離を算出するための方式には様々な方式が採用される。

一実施形態によると、オートエンコーダ２０２は、埋め込み空間上、埋め込み特徴２０５の位置に応じて文章のドメイン判断ができるよう学習されるため、予め学習されたオートエンコーダ２０２を用いるドメイン判断装置２０１は、データにより性能の偏差なしに正確なドメイン判断結果を生成することができる。また、ドメイン判断装置２０１は、埋め込み特徴２０５を分析して文章のドメインを判断するため、ドメイン判断結果を直接的に生成するニューラルネットワークとは異なってドメイン判断において安定した性能を示すことができる。

一実施形態によると、ドメイン判断装置２０１は、入力文章２０３のドメインを判断するために再構成エラーを追加的に考慮し得る。ドメイン判断装置２０１は、オートエンコーダ２０２を用いて埋め込み特徴２０５から再構成特徴を生成する。ドメイン判断装置２０１は、入力特徴２０４と再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置２０１は、再構成エラーと埋め込み特徴２０５の位置に基づいて入力文章２０３のドメインを判断する。ドメイン判断装置２０１は、埋め込み特徴２０５の位置だけではなく再構成エラーも考慮して、ドメイン判断の正確度を高めることができる。再構成エラーは、入力特徴２０４と再構成特徴との間の差又は損失関数によって定義され、ここで、損失関数は、ＭＳＥ（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）形態、エントロピー（ｅｎｔｒｏｐｙ）形態などに設計され得る。再構成エラーを定義する方式には様々な方式が採用されてもよい。

一実施形態によると、ドメイン判断装置２０１は、言語基盤の認識システムで認識の前処理ステップとして活用され得る。言語基盤の認識システムで文章の分析が実行される前に、ドメイン判断装置２０１は、文章のドメインを判断又は分類してデータ処理の効率を高めることができる。例えば、分析の対象となる文章に関するデータ量が極めて多い場合、ドメイン判断装置２０１は、文章のドメインを判断又は分類して分析の対象を分類し、または、減らし得る。

一実施形態によると、ドメイン判断装置２０１は、音声認識、翻訳、コミュニケーションシステムなど、文章を用いた学習システムから学習データを収集するために活用される。学習データは、学習の効率及び性能に重要な影響を及ぼすため、ドメイン判断装置２０１は、文章のドメインを判断又は分類して学習に適切な文章を学習システムに提供することができる。

一実施形態によると、ドメイン判断装置２０１は、埋め込み空間上、埋め込み特徴２０５の位置を分析し、入力文章２０３がドメイン文章又は非ドメイン文章であるか否かを判断する。ここで、ドメイン文章は特定ドメインに属する文章を意味し、非ドメイン文章は特定ドメインに属しない文章を意味する。ドメイン判断装置２０１は、埋め込み空間上、埋め込み特徴２０５の位置を分析し、複数のドメインのうち入力文章２０３が属するドメインを判断してもよい。例えば、ドメイン判断装置２０１は、予め定義されたドメインのうち入力文章２０３が法律ドメインに属するものと判断する。以下、図３～図５を参照して一実施形態に係るドメイン判断動作を説明する。

図３は、一実施形態に係る文章のドメイン判断方法を説明するための図である。

図３を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義された位置３０３との間の関係に基づいて入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断する。図３には、視覚的な説明のために埋め込み空間が３次元のように示されているが、埋め込み空間は、埋め込み特徴の次元又は関数により定義され、以下の通りである。

一実施形態によると、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が予め定義された位置３０３に近づくように学習される。予め定義された位置は設計意図に応じて多様に定義され、例えば、埋め込み空間上の原点として定義される。

ドメイン判断装置は、埋め込み特徴の位置３０１と予め定義された位置３０３との間の距離が閾値距離よりも小さい場合、入力文章がドメイン文章又は非ドメイン文章のうち非ドメイン文章であると判断する。ドメイン判断装置は、埋め込み特徴の位置３０２と予め定義された位置３０３との間の距離が閾値距離よりも大きい場合、入力文章がドメイン文章又は非ドメイン文章のうちドメイン文章であると判断する。閾値距離は、予め定義されたり学習によって導き出される。

一実施形態によると、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮する。ここで、オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴との間の複数の再構成エラーが小さくなるように学習される。ドメイン判断装置は、埋め込み特徴の位置３０２と予め定義された位置３０３との間の距離が閾値距離よりも大きい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも大きい場合、入力文章が非ドメイン文章であると判断する。ここで、閾値エラーは、予め定義されたり学習によって導き出される。

ドメイン判断装置を言語認識システムの前処理ステップで活用しようとする場合、ドメイン文章を非ドメイン文章として誤認することよりも、非ドメイン文章をドメイン文章として誤認することがドメイン判断性能にとって致命的である。この場合、入力文章がドメイン文章として判断する動作をより厳しく実行するようにドメイン判断装置を実現する必要がある。ここで、埋め込み特徴の位置３０２が予め定義された位置３０３から遠く離れていても、ドメイン判断装置は、再構成エラーが大きい場合、入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。ただし、非ドメイン文章をドメイン文章として誤認することよりも、ドメイン文章を非ドメイン文章として誤認することがもっと致命的であると判断される場合には、上述したものと反対にドメイン判断装置が実現される。

図４は、一実施形態に係る文章のドメイン判断方法を説明するための図である。

図４を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義された位置４０３との間の関係に基づいて、入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断する。ドメイン判断装置は、予め定義された位置４０３に近い埋め込み特徴４０１と、予め定義された位置４０３から遠く離れた埋め込み特徴４０２について、図３を参照して説明された実施形態とは反対に判断する。

一実施形態によると、オートエンコーダは、ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が予め定義された位置４０３に近づくように学習される。ドメイン判断装置は、埋め込み特徴の位置４０２と予め定義された位置４０３との間の距離が閾値距離よりも大きい場合、入力文章がドメイン文章又は非ドメイン文章のうち、非ドメイン文章であると判断する。ドメイン判断装置は、埋め込み特徴の位置４０１と予め定義された位置４０３との間の距離が閾値距離よりも小さい場合、入力文章がドメイン文章又は非ドメイン文章のうち、ドメイン文章であると判断する。

上述のように、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮し得る。ここで、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴の間の複数の再構成エラーが小さくなるように学習される。ドメイン判断装置は、埋め込み特徴の位置４０２と予め定義された位置４０３との間の距離が閾値距離よりも小さい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも小さい場合、入力文章が非ドメイン文章であると判断する。ここで、埋め込み特徴の位置４０１が予め定義された位置４０３に近くても、ドメイン判断装置は、再構成エラーが小さい場合に入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。

図５は、一実施形態に係る文章のドメイン判断方法を説明するための図である。

図５を参照すると、ドメイン判断装置は、埋め込み空間上、埋め込み特徴の位置と予め定義されたドメイン（第１ドメイン、第２ドメイン、及び第３ドメイン）にそれぞれ対応する予め定義された位置５０４、５０５、及び５０６の間の関係に基づいて、予め定義されたドメイン（第１ドメイン、第２ドメイン、及び第３ドメイン）のうち入力文章が属するドメインを判断し得る。図３及び図４を参照して、入力文章がドメイン文章又は非ドメイン文章のうちいずれかの文章であるかを判断する実施形態について説明したが、ドメイン判断装置は、複数のドメインのうち入力文章が属するドメインを判断してもよい。

一実施形態によると、オートエンコーダは、ドメイン（第１ドメイン、第２ドメイン、及び第３ドメイン）にそれぞれ属するドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が、予め定義された位置５０４、５０５及び５０６にそれぞれ近づくように学習され得る。ドメイン判断装置は、位置５０４、５０５及び５０６のうち埋め込み特徴の位置５０２と最も近い位置５０５を識別し、埋め込み特徴の位置５０２と識別された位置５０５との間の距離が閾値距離よりも小さい場合、入力文章が位置５０５に対応するドメイン（第２ドメイン）に属するものと判断する。同様に、ドメイン判断装置は、埋め込み特徴の位置５０１に対応する入力文章が位置５０４に対応するドメイン（第１ドメイン）に属するものと判断し、埋め込み特徴の位置５０３に対応する入力文章が位置５０６に対応するドメイン（第３ドメイン）に属するものと判断する。ドメイン判断装置は、埋め込み特徴の位置５０７及び位置５０７と最も近い位置の間の距離が閾値距離よりも大きい場合、埋め込み特徴の位置５０７に対応する入力文章が非ドメイン文章であると判断する。ここで、非ドメイン文章は、ドメイン（第１ドメイン、第２ドメイン及び第３ドメイン）のいずれにも属しない文章であってもよい。

上述のように、ドメイン判断装置は、入力文章のドメイン判断のために再構成エラーを追加的に考慮できる。ここで、オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴及び再構成特徴の間の再構成エラーが小さくなるように学習され得る。ドメイン判断装置は、埋め込み特徴の位置５０２と予め定義された位置５０５との間の距離が閾値距離よりも小さい場合、予め学習されたオートエンコーダを用いて埋め込み特徴から再構成特徴を生成し、入力特徴及び再構成特徴に基づいて再構成エラーを生成する。ドメイン判断装置は、再構成エラーが閾値エラーよりも小さい場合、入力文章が非ドメイン文章であると判断する。ここで、埋め込み特徴の位置５０２が予め定義された位置５０５に近くても、ドメイン判断装置は、再構成エラーが小さい場合に入力文章が非ドメイン文章であると判断してドメイン判断のエラーを減らすことができる。

図６は、一実施形態に係る文章のドメイン判断のための学習方法を説明するためのフローチャートである。

図６を参照すると、文章のドメイン判断のための学習装置（以下、ドメイン判断学習装置）は、トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加する（Ｓ６０１）。ドメイン判断学習装置は、ドメイン判断のためにオートエンコーダを学習させる装置として、例えば、ソフトウェアモジュール、ハードウェアモジュール、又は、その組み合わせで実現される。トレーニング特徴は、オートエンコーダを学習させるためのデータとして、オートエンコーダの入力レイヤに対応するベクトル又は関数として設計される。

ドメイン判断学習装置は、トレーニング特徴から生成された埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくようオートエンコーダを学習させる（Ｓ６０２）。ドメイン判断学習装置は、様々な学習方式を用いてオートエンコーダ内のノードの間の加重値を最適化し、実施形態は特定学習方式に制限されない。以下、図３～図５を参照して説明されたドメイン判断方法のためのそれぞれの学習方法について図７～図９を参照して後述する。

図７は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。

図７を参照すると、ドメイン判断学習装置は、複数のドメイン文章７０２を表現している複数の第１トレーニング特徴７０４をオートエンコーダ７０１に印加する。ドメイン判断学習装置は、複数の非ドメイン文章７０３を表現している複数の第２トレーニング特徴７０５をオートエンコーダ７０１に印加する。

ドメイン判断学習装置は、複数の第１トレーニング特徴７０４からオートエンコーダ７０１によって生成された複数の第１埋め込み特徴７０６を取得する。ドメイン判断学習装置は、複数の第１トレーニング特徴７０４からオートエンコーダ７０１によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第１埋め込み特徴７０６から生成された複数の再構成特徴と複数の第１トレーニング特徴７０４との間の複数の再構成エラー７０７が小さくなるようにオートエンコーダ７０１を学習させ得る。

ドメイン判断学習装置は、複数の第２トレーニング特徴７０５からオートエンコーダ７０１によって生成された複数の第２埋め込み特徴７０８を取得する。ドメイン判断学習装置は、複数の第２埋め込み特徴７０８の位置が埋め込み空間上の予め定義された位置に近づくようにオートエンコーダ７０１を学習させ得る。

図８は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。

図８を参照すると、ドメイン判断学習装置は、複数のドメイン文章８０２を表現している複数の第１トレーニング特徴８０４をオートエンコーダ８０１に印加する。ドメイン判断学習装置は、複数の非ドメイン文章８０３を表現している複数の第２トレーニング特徴８０５をオートエンコーダ８０１に印加する。ドメイン判断学習装置は、埋め込み空間上、予め定義された位置に近い埋め込み特徴と予め定義された位置から遠く離れた埋め込み特徴について図７を参照して説明された実施形態とは反対にオートエンコーダを学習させ得る。

ドメイン判断学習装置は、複数の第１トレーニング特徴８０４からオートエンコーダ８０１によって生成された複数の第１埋め込み特徴８０６を取得する。ドメイン判断学習装置は、複数の第１埋め込み特徴８０６の位置が埋め込み空間上の予め定義された位置に近づくようオートエンコーダ８０１を学習させ得る。

ドメイン判断学習装置は、複数の第２トレーニング特徴８０５からオートエンコーダ８０１によって生成された複数の第２埋め込み特徴８０７を取得する。ドメイン判断学習装置は、複数の第２トレーニング特徴８０５からオートエンコーダ８０１によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第２埋め込み特徴８０７から生成された複数の再構成特徴と複数の第２トレーニング特徴８０５との間の複数の再構成エラー８０８が小さくなるようにオートエンコーダ８０１を学習させ得る。

図９は、一実施形態に係る文章のドメイン判断のための学習方法を説明するための図である。

図９を参照すると、ドメイン判断学習装置は、複数の第１ドメイン文章９０２を表現している複数の第１トレーニング特徴９０４をオートエンコーダ９０１に印加する。ドメイン判断学習装置は、複数の第２ドメイン文章９０３を表現している複数の第２トレーニング特徴９０５をオートエンコーダ９０１に印加する。ドメイン判断学習装置は、複数の非ドメイン文章９０８を表現している複数の第３トレーニング特徴９０９をオートエンコーダ９０１に印加する。図７及び図８を参照して、入力文章がドメイン文章又は非ドメイン文章のうちいずれかの文章であるかを判断するように、オートエンコーダを学習させる実施形態について説明したが、ドメイン判断学習装置は、複数のドメインのうち入力文章が属するドメインを判断するようオートエンコーダを学習させ得る。

ドメイン判断学習装置は、複数の第１トレーニング特徴９０４からオートエンコーダ９０１によって生成された複数の第１埋め込み特徴９０６の位置を取得する。ドメイン判断学習装置は、複数の第１埋め込み特徴９０６の位置が埋め込み空間上の第１位置に近づくようオートエンコーダ９０１を学習させ得る。

ドメイン判断学習装置は、複数の第２トレーニング特徴９０５からオートエンコーダ９０１によって生成された複数の第２埋め込み特徴９０７の位置を取得する。ドメイン判断学習装置は、複数の第２埋め込み特徴９０５の位置が埋め込み空間上の第２位置に近づくようオートエンコーダ９０１を学習させ得る。

ドメイン判断学習装置は、複数の第３トレーニング特徴９０９からオートエンコーダ９０１によって生成された複数の第３埋め込み特徴９１０を取得する。ドメイン判断学習装置は、複数の第３埋め込み特徴９１０からオートエンコーダ９０１によって生成された複数の再構成特徴を取得する。ドメイン判断学習装置は、複数の第３埋め込み特徴９１０から生成された複数の再構成特徴と複数の第３トレーニング特徴９０９との間の複数の再構成エラー９１１が小さくなるようオートエンコーダ９０１を学習させ得る。

図１０は、一実施形態に係るドメイン判断装置の動作を説明するための図である。

図１０を参照すると、ドメイン判断装置は、入力文章がドメイン文章又は非ドメイン文章のうちのいずれかに該当するかを判断する。例えば、ドメイン判断装置は、入力文章である「原告は被告に不動産売買契約の約定により契約金を支給した」がドメイン文章として判断され、入力文章である「心不全患者は不整脈の危険のためにカフェイン含量の高いコーヒーは控えることがよい」が非ドメイン文章として判断する。

図１１は、一実施形態に係るドメイン判断装置の動作を説明するための図である。

図１１を参照すると、ドメイン判断装置は、入力文章が複数のドメインのうちどこに属するかを判断する。例えば、ドメイン判断装置は、入力文章である「原告は被告に不動産売買契約の約定により契約金を支給した」が法律ドメインに属するものと判断し、入力文章である「心不全患者は不整脈の危険のためにカフェイン含量の高いコーヒーは控えることがよい」が医療ドメインに属するものと判断し、入力文章である「Ｓ電子が半導体事業で歴代最大の実績を上げた」がニュースドメインに属するものと判断し、入力文章である「私はとても可愛い」が非ドメイン文章として判断する。一実施形態によると、ドメイン判断装置は、言語基盤の認識システムで文章のドメインを判断するために活用される。

図１２は一実施形態に係る装置の構成の例示図である。

図１２を参照すると、装置１２０１は、プロセッサ１２０２及びメモリ１２０３を含む。一実施形態に係る装置１２０１は、上述したドメイン判断装置又はドメイン判断学習装置であり得る。プロセッサ１２０２は、図１～図１１を参照して前述した少なくとも１つの装置を含んだり、図１～図１１によって前述した少なくとも１つの方法を行ってもよい。メモリ１２０３は、上述したドメイン判断方法又はドメイン判断学習方法に関する情報を格納したり、上述したドメイン判断方法又はドメイン判断学習方法が具現されたプログラムを格納する。メモリ１２０３は、揮発性メモリ又は不揮発性メモリであってもよい。

プロセッサ１２０２はプログラムを実行し、装置１２０１を制御する。プロセッサ１２０２によって実行されるプログラムのコードは、メモリ１２０３に格納される。装置１２０１は、入出力装置（図示せず）によって外部装置（例えば、パーソナルコンピュータ又はネットワーク）に接続され、データを交換する。

以上、説明した実施形態は、ハードウェア構成要素、ソフトウェア構成要素、又はハードウェア構成要素及びソフトウェア構成要素の組み合わせで具現化される。例えば、本実施形態で説明した装置及び構成要素は、例えば、プロセッサ、コントローラ、ＡＬＵ（ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ）、デジタル信号プロセッサ（ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、マイクロコンピュータ、ＦＰＡ（ｆｉｅｌｄｐｒｏｇｒａｍｍａｂｌｅａｒｒａｙ）、ＰＬＵ（ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃｕｎｉｔ）、マイクロプロセッサー、又は命令（ｉｎｓｔｒｕｃｔｉｏｎ）を実行して応答する異なる装置のように、１つ以上の汎用コンピュータ又は専用コンピュータを用いて具現化される。処理装置は、オペレーティングシステム（ＯＳ）及びオペレーティングシステム上で実行される１つ以上のソフトウェアアプリケーションを実行する。また、処理装置は、ソフトウェアの実行に応答してデータをアクセス、格納、操作、処理、及び生成する。理解の便宜のために、処理装置は１つが使用されるものとして説明する場合もあるが、当該技術分野で通常の知識を有する者には、処理装置が複数の処理要素（ｐｒｏｃｅｓｓｉｎｇｅｌｅｍｅｎｔ）及び／又は複数類型の処理要素を含むことが分かる。例えば、処理装置は、複数のプロセッサ又は１つのプロセッサ及び１つのコントローラを含む。または、並列プロセッサ（ｐａｒａｌｌｅｌｐｒｏｃｅｓｓｏｒ）のような、他の処理構成も可能である。

ソフトウェアは、コンピュータプログラム、コード、命令、又はこれらのうちの１つ以上の組み合わせを含み、希望通りに動作するように処理装置を構成し、独立的又は結合的に処理装置に対して命令する。ソフトウェア及び／又はデータは、処理装置によって解釈され、処理装置に命令又はデータを提供するためのあらゆる類型の機械、構成要素、物理的装置、仮想装置、コンピュータ格納媒体又は装置、或いは送信される信号波を介して永久的又は一時的に具現化される。ソフトウェアは、ネットワークに接続されたコンピュータシステム上に分散され、分散された方法で格納されるか又は実行される。ソフトウェア及びデータは１つ以上のコンピュータ読み取り可能な記録媒体に格納される。

本実施形態による方法は、多様なコンピュータ手段を介して実施されるプログラム命令の形態で具現化され、コンピュータ読み取り可能な記録媒体に記録される。記録媒体は、プログラム命令、データファイル、データ構造などを単独又は組み合わせて含む。記録媒体及びプログラム命令は、本発明の目的のために特別に設計して構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読み取り可能な記録媒体の例は、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気－光媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置を含む。プログラム命令の例は、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行される高級言語コードを含む。ハードウェア装置は、本発明の動作を実行するために１つ以上のソフトウェアモジュールとして作動するように構成してもよく、その逆も同様である。

上述のように実施形態をたとえ限定された図面によって説明したとしても、当該技術分野で通常の知識を有する者であれば、前記に基づいて様々な技術的な修正及び変形を適用することができる。例えば、説明された技術が説明された方法と異なる順序で実行されたり、及び／又は、説明されたシステム、構造、装置、回路などの構成要素が説明された方法と異なる形態で結合又は組み合わせられたり、他の構成要素又は均等物によって置き換えたり置換されても適切な結果を達成することができる。

２０１ドメイン判断装置
２０２オートエンコーダ
２０３入力文章
２０４入力特徴
２０５埋め込み特徴
７０１オートエンコーダ
７０２複数のドメイン文章
７０３複数の非ドメイン文章
７０４複数の第１トレーニング特徴
７０５複数の第２トレーニング特徴
７０６複数の第１埋め込み特徴
７０７複数の再構成エラー
７０８複数の第２埋め込み特徴

Claims

文章のドメイン判断方法であって、
ドメイン判断装置によって、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、
前記ドメイン判断装置によって、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップと、
を含み、
前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み、
前記オートエンコーダは、複数の非ドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、
前記判断するステップは、さらに、前記距離が閾値距離よりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含む、
方法。
文章のドメイン判断方法であって、
ドメイン判断装置によって、オートエンコーダを用いて入力文章を表現している入力特徴から埋め込み特徴を生成するステップと、
前記ドメイン判断装置によって、複数の埋め込み特徴が分布している埋め込み空間上で、前記埋め込み特徴の位置に基づいて前記入力文章のドメインを判断するステップと、
を含み、
前記判断するステップは、前記埋め込み特徴の位置と予め定義された位置との間の距離に基づいて、前記入力文章がドメイン文章又は非ドメイン文章のいずれであるかを判断するステップを含み、
前記オートエンコーダは、複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記予め定義された位置に近づくように学習され、
前記判断するステップは、前記距離が閾値距離よりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップを含み、
前記判断するステップは、
前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が前記非ドメイン文章であると判断するステップと、
を含む、
方法。
前記判断するステップは、
前記距離が前記閾値距離よりも大きい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
前記再構成エラーが閾値エラーよりも大きい場合、前記入力文章が前記非ドメイン文章であると判断するステップと、
を含む、請求項１に記載の方法。
前記予め定義された位置は前記埋め込み空間上の原点である、
請求項１ないし３のうちいずれか一項に記載の方法。
前記判断するステップは、
前記埋め込み特徴の位置及び前記予め定義された位置に基づいて、Ｌｐ－ｎｏｒｍ又はＫＬ－ｄｉｖｅｒｇｅｎｃｅ（Ｋｕｌｌｂａｃｋ－Ｌｅｉｂｌｅｒｄｉｖｅｒｇｅｎｃｅ：ＫＬＤ）を算出するステップと、
前記算出の結果に基づいて、前記埋め込み特徴の位置及び前記予め定義された位置の間の距離を生成するステップと、
を含む、請求項１ないし３のうちいずれか一項に記載の方法。
前記判断するステップは、
前記オートエンコーダを用いて、前記埋め込み特徴から再構成特徴を生成するステップと、
前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
前記再構成エラー及び前記位置に基づいて前記入力文章のドメインを判断するステップと、
を含む、請求項１ないし５のうちいずれか一項に記載の方法。
前記埋め込み特徴は、前記オートエンコーダ内の隠しレイヤの活性化値又は事前－活性化値である、
請求項１ないし５のうちいずれか一項に記載の方法。
前記入力特徴は、前記入力文章からニューラルネットワークによって生成された埋め込み特徴である、
請求項１ないし７のうちいずれか一項に記載の方法。
前記入力特徴は、前記オートエンコーダ内の入力レイヤに対応するワンホットベクトル、実数ベクトル、及び関数のうち少なくとも１つ又はその組み合わせを含む、
請求項１ないし７のうちいずれか一項に記載の方法。
前記再構成特徴は、前記オートエンコーダ内の出力レイヤに対応するワンホットベクトル、実数ベクトル、及び関数のうち少なくとも１つ又はその組み合わせを含む、
請求項２に記載の方法。
前記判断するステップは、予め定義された複数のドメインにそれぞれ対応する予め定義された位置と、前記位置に基づいて前記ドメインのうち前記入力文章が属するドメインを判断するステップを含む、
請求項１に記載の方法。
前記オートエンコーダは、前記ドメインにそれぞれ属する複数のドメイン文章を表現している複数の特徴から生成された複数の埋め込み特徴が前記位置にそれぞれ近づくように学習され、
前記入力文章が属するドメインを判断するステップは、
前記位置のうち前記位置と最も近い第２位置を識別するステップと、
前記位置と前記第２位置の間の距離が閾値距離よりも小さいか否かに基づいて、前記入力文章が前記第２位置に対応する第２ドメインに属するものと判断するステップと、
を含む、請求項１１に記載の方法。
前記入力文章が前記第２ドメインに属するものと判断するステップは、
前記距離が前記閾値距離よりも小さい場合、前記オートエンコーダを用いて前記埋め込み特徴から再構成特徴を生成するステップと、
前記入力特徴と前記再構成特徴に基づいて再構成エラーを生成するステップと、
前記再構成エラーが閾値エラーよりも小さい場合、前記入力文章が非ドメイン文章（前記非ドメイン文章は、前記ドメインに属しない文章である）であるものと判断するステップと、
を含む、請求項１２に記載の方法。
文章のドメイン判断のための学習方法であって、
トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
を含み、
前記オートエンコーダに印加するステップは、
ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、
非ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップと、
を含み、
前記オートエンコーダを学習させるステップは、
前記第１トレーニング特徴から生成された第１埋め込み特徴を取得するステップと、
前記第１埋め込み特徴から生成された再構成特徴と前記第１トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
前記第２トレーニング特徴から生成された第２埋め込み特徴の位置が前記埋め込み空間上の第２位置に近づくように前記オートエンコーダを学習させるステップと、
を含む、
方法。
文章のドメイン判断のための学習方法であって、
トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
を含み、
前記オートエンコーダに印加するステップは、
ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、
非ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップと、
を含み、
前記オートエンコーダを学習させるステップは、
前記第１トレーニング特徴から生成された第１埋め込み特徴の位置が前記埋め込み空間上の第１位置に近づくように前記オートエンコーダを学習させるステップと、
前記第２トレーニング特徴から生成された第２埋め込み特徴を取得するステップと、
前記第２埋め込み特徴から生成された再構成特徴と前記第２トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
を含む、
方法。
文章のドメイン判断のための学習方法であって、
トレーニング文章を表現しているトレーニング特徴をオートエンコーダに印加するステップであり、前記オートエンコーダは前記トレーニング特徴から埋め込み特徴を生成するように構成されている、ステップと、
前記トレーニング特徴から生成された前記埋め込み特徴の位置が埋め込み空間上の予め定義された位置に近づくように前記オートエンコーダを学習させるステップであり、前記埋め込み空間には、複数の埋め込み特徴が分布する、ステップと、
を含み、
前記オートエンコーダに印加するステップは、
第１ドメイン文章を表現している第１トレーニング特徴を前記オートエンコーダに印加するステップと、
第２ドメイン文章を表現している第２トレーニング特徴を前記オートエンコーダに印加するステップと、
非ドメイン文章を表現している第３トレーニング特徴を前記オートエンコーダに印加するステップであり、前記非ドメイン文章は、複数のドメインに属しない文章である、ステップと、
を含み、
前記オートエンコーダを学習させるステップは、
前記第１トレーニング特徴から生成された第１埋め込み特徴の位置が前記埋め込み空間上の第１位置に近づくように前記オートエンコーダを学習させるステップと、
前記第２トレーニング特徴から生成された第２埋め込み特徴の位置が前記埋め込み空間上の第２位置に近づくように前記オートエンコーダを学習させるステップと、
前記第３トレーニング特徴から生成された第３埋め込み特徴を取得するステップと、
前記第３埋め込み特徴から生成された再構成特徴と前記第３トレーニング特徴との間の再構成エラーが小さくなるように前記オートエンコーダを学習させるステップと、
を含む、
方法。
ハードウェアと結合して請求項１ないし請求項１６のうちいずれか一項に記載の方法を実行させるために記録媒体に格納されたコンピュータプログラム。
文章のドメイン判断装置であって、
プロセッサ、を含み、
請求項１ないし請求項１３のうちいずれか一項に記載の方法を実行させる、
装置。
文章のドメイン判断のための学習装置であって、
プロセッサ、を含み、
請求項１４ないし請求項１６のうちいずれか一項に記載の方法を実行させる、
装置。