JP2017059205A - Subject estimation system, subject estimation method, and program - Google Patents
Subject estimation system, subject estimation method, and program Download PDFInfo
- Publication number
- JP2017059205A JP2017059205A JP2016080684A JP2016080684A JP2017059205A JP 2017059205 A JP2017059205 A JP 2017059205A JP 2016080684 A JP2016080684 A JP 2016080684A JP 2016080684 A JP2016080684 A JP 2016080684A JP 2017059205 A JP2017059205 A JP 2017059205A
- Authority
- JP
- Japan
- Prior art keywords
- topic
- dependent
- convolution
- subject
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、対話の主題を推定する主題推定システム、主題推定方法およびプログラムに関する。 The present invention relates to a subject estimation system, a subject estimation method, and a program for estimating a subject of dialogue.
畳み込みニューラルネットワークを利用してパターン認識を行うシステムがある(例えば特許文献1)。特許文献1には、畳み込みニューラルネットワークを用いたパターン認識の一般的な方法が開示されている。 There is a system that performs pattern recognition using a convolutional neural network (for example, Patent Document 1). Patent Document 1 discloses a general method of pattern recognition using a convolutional neural network.
また、畳み込みニューラルネットワークを自然言語処理の分野に適用する方法も知られている(例えば非特許文献1)。非特許文献1には、公知のデータセットを用いて学習させた畳み込みニューラルネットワークを用いて文の分類を行う方法が開示されている。 A method of applying a convolutional neural network to the field of natural language processing is also known (for example, Non-Patent Document 1). Non-Patent Document 1 discloses a method of classifying sentences using a convolutional neural network trained using a known data set.
しかしながら、上記従来技術を用いた文の分類方法では、畳み込みニューラルネットワークは十分な学習データを用いて学習されることが前提であり、学習データが十分でない場合についてはあまり考慮されていない。 However, in the sentence classification method using the above-described conventional technique, it is assumed that the convolutional neural network is learned using sufficient learning data, and the case where the learning data is insufficient is not taken into consideration.
そのため、上記従来技術に開示される畳み込みニューラルネットワークを用いても、学習データが十分でない場合、対話の主題を推定するタスクを精度よく行えないという課題がある。 Therefore, even if the convolutional neural network disclosed in the above prior art is used, there is a problem that the task of estimating the subject of dialogue cannot be performed with high accuracy if the learning data is not sufficient.
そこで、本発明は、上述の問題点に着目したものであり、学習データが十分でない場合でも、対話の主題をより高精度に推定することができる主題推定システム、主題推定方法およびプログラムを提供することを目的とする。 Therefore, the present invention focuses on the above-described problems, and provides a subject estimation system, a subject estimation method, and a program capable of estimating the subject of a conversation with higher accuracy even when learning data is not sufficient. For the purpose.
上記課題を解決するため、本発明の一形態に係る主題推定システムは、畳み込みニューラルネットワークを備え、対話の主題ラベルを推定するための主題推定システムであって、前記畳み込みニューラルネットワークは、対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行う1以上のトピック依存畳み込み層と、当該トピックに依存しない畳み込み演算を行う1つのトピック非依存畳み込み層とで構成される畳み込み層と、前記畳み込み層の出力に対してプーリング処理を行うプーリング層と、前記プーリング層の出力に対して全結合処理を行う全結合層とを備える。 In order to solve the above problems, a theme estimation system according to an aspect of the present invention includes a convolutional neural network, and is a theme estimation system for estimating a theme label of a dialog, the convolution neural network writing a dialog. One or more topic-dependent convolution layers that perform topic-dependent convolution operations on a word string vector sequence input corresponding to the generated conversation text, and one topic-independent convolution layer that performs convolution operations that do not depend on the topic A convolution layer, a pooling layer that performs a pooling process on the output of the convolution layer, and a total coupling layer that performs a total coupling process on the output of the pooling layer.
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたは記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。 These general or specific aspects may be realized by a system, a method, an integrated circuit, a computer program, or a recording medium, and are realized by any combination of the system, method, integrated circuit, computer program, and recording medium. May be.
本発明によれば、学習データが十分でない場合でも、対話の主題をより高精度に推定することができる主題推定システム等を実現できる。 ADVANTAGE OF THE INVENTION According to this invention, even when learning data is not enough, the theme estimation system etc. which can estimate the theme of a dialog with higher precision are realizable.
(本発明の基礎となった知見)
本開示において想定する対話の主題を推定するタスクは、人間と機械とを問わず、二者間を基本とする自然言語のやりとりである対話の主題が何かを推定するというタスクである。当該タスクは、対話中の単語列が入力され、一つのトピックに関すると認定された当該単語列のセグメントを一単位として、その対話における主題が何かを推定する。
(Knowledge that became the basis of the present invention)
The task of estimating the subject of dialogue assumed in the present disclosure is a task of estimating what is the subject of dialogue, which is a natural language exchange based on two parties, regardless of whether a person or a machine. The task estimates a subject in the dialogue by inputting a word string during the dialogue and taking a segment of the word row recognized as related to one topic as a unit.
畳み込みニューラルネットワークを基本とする主題推定システムでは、学習データを用いて畳み込みニューラルネットワークの学習を行い、評価データを用いて評価を行う。 In a subject estimation system based on a convolutional neural network, learning of a convolutional neural network is performed using learning data, and evaluation is performed using evaluation data.
本開示において想定する上記タスクでは、有限個のトピックが定義され、出力として得たい有限個の主題も定義される。また、トピックが何であるかについては、セグメント内の単語列と共に主題推定システムに与えられる。 In the above tasks assumed in this disclosure, a finite number of topics are defined, and a finite number of subjects that are desired to be output are also defined. Also, what the topic is is given to the subject estimation system together with the word string in the segment.
しかしながら、上述したように、上記従来技術に開示される畳み込みニューラルネットワークを主題推定システムに利用する場合には、その畳み込みニューラルネットワークを十分な学習データを用いて学習させることが前提である。学習データが十分でない場合についてまでは検討されていない。 However, as described above, when the convolutional neural network disclosed in the above-described prior art is used in the subject estimation system, it is assumed that the convolutional neural network is learned using sufficient learning data. The case where the learning data is not sufficient is not considered.
例えば人間同士の対話を記録したデータから当該対話を書き起こしたものを学習データとして利用する場合、あるトピックについては対話量が少なく学習データが少ないということが起こりうる。また、出力として得たい主題についても、ある主題については学習データが少ないということが起こり得る。このような、学習データが少なくまた数に偏りがあるという場合についてまでは、検討されていない。 For example, when data obtained by recording a dialogue between humans is used as learning data, there may be a small amount of dialogue and less learning data for a certain topic. Also, for a subject that is desired to be obtained as an output, it may happen that there is little learning data for a certain subject. Such a case where there is little learning data and there is a bias in the number has not been studied.
そのため、上記従来技術に開示される畳み込みニューラルネットワークを用いても、学習データが十分でない場合、対話の主題を推定するタスクを精度よく行えないという課題が発生する。 Therefore, even if the convolutional neural network disclosed in the above prior art is used, if the learning data is not sufficient, there arises a problem that the task of estimating the subject of dialogue cannot be performed with high accuracy.
このような課題を解決するために、本発明の一形態に係る主題推定システムは、畳み込みニューラルネットワークを備え、対話の主題ラベルを推定するための主題推定システムであって、前記畳み込みニューラルネットワークは、対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行う1以上のトピック依存畳み込み層と、当該トピックに依存しない畳み込み演算を行う1つのトピック非依存畳み込み層とで構成される畳み込み層と、前記畳み込み層の出力に対してプーリング処理を行うプーリング層と、前記プーリング層の出力に対して全結合処理を行う全結合層とを備える。 In order to solve such a problem, a subject estimation system according to an aspect of the present invention includes a convolutional neural network, and is a subject estimation system for estimating a subject label of a dialogue, wherein the convolutional neural network includes: One or more topic-dependent convolutional layers that perform topic-dependent convolution operations on an input of a word string vector sequence corresponding to the dialog text that transcribes the conversation, and one topic non-conformation that performs convolution operations that do not depend on the topic A convolution layer including a dependent convolution layer; a pooling layer that performs a pooling process on an output of the convolution layer; and an all coupling layer that performs a total coupling process on an output of the pooling layer.
この構成により、学習データが十分でない場合でも、対話の主題をより高精度に推定することができる主題推定システムを実現できる。より具体的には、この構成によれば、学習データが多い場合に精度が高いトピックごとに学習される1つのトピック非依存畳み込み層と、学習データが少ない場合に精度が高いトピックによらず学習される1以上のトピック依存畳み込み層とが、上位の階層で統合されるため、学習データの量が少ない場合にも高い主題推定性能が得られる。 With this configuration, it is possible to realize a theme estimation system that can estimate the theme of a conversation with higher accuracy even when the learning data is not sufficient. More specifically, according to this configuration, one topic-independent convolution layer that is learned for each topic with high accuracy when there is a large amount of learning data, and learning regardless of a topic with high accuracy when there is a small amount of learning data Since one or more topic-dependent convolutional layers are integrated in a higher hierarchy, high subject estimation performance can be obtained even when the amount of learning data is small.
また、前記畳み込みニューラルネットワークは、前記入力を2クラス分類問題として解くことで前記入力に対する対話の主題ラベルを推定するとしてもよい。 The convolutional neural network may estimate the subject label of the dialogue for the input by solving the input as a two-class classification problem.
また、前記畳み込みニューラルネットワークにおいて、対話を書き起こした学習用対話テキストであって前記対話の時系列のテキストがトピックごとのセグメントに予め分割され、かつ、分割されたセグメントごとに対応するトピックのラベルが予め付与された学習用対話テキストを、学習データとして用いて、前記1以上のトピック依存畳み込み層それぞれに、依存するトピックである依存トピックごとに当該依存トピックに依存する畳み込み演算を行わせるよう第1重みを学習させ、かつ、前記トピック非依存畳み込み層に当該依存トピックに依存しない畳み込み演算を行わせるよう第2重みを学習させるとしてもよい。 Further, in the convolutional neural network, learning dialogue text that transcribes a dialogue, wherein the dialogue time-series text is pre-divided into segments for each topic, and a topic label corresponding to each divided segment Is used as learning data to cause each of the one or more topic-dependent convolutional layers to perform a convolution operation that depends on the dependent topic for each dependent topic that is a dependent topic. The first weight may be learned, and the second weight may be learned so that the topic-independent convolution layer performs a convolution operation that does not depend on the dependent topic.
また、前記1以上のトピック依存畳み込み層それぞれは、前記学習用対話テキストに対応する単語列ベクトル列のうち前記依存トピックに関連する単語列ベクトル列が入力されることにより、当該依存トピックに依存する畳み込み演算を行うよう前記第1重みを学習し、前記トピック非依存畳み込み層は、前記学習用対話テキストに対応する単語列ベクトル列が入力されることにより、前記依存トピックに依存しない畳み込み演算を行うよう前記第2重みを学習するとしてもよい。 Each of the one or more topic-dependent convolutional layers depends on the dependent topic by inputting a word string vector sequence related to the dependent topic among word string vector sequences corresponding to the learning dialogue text. The first weight is learned so as to perform a convolution operation, and the topic-independent convolution layer performs a convolution operation that does not depend on the dependent topic by inputting a word string vector sequence corresponding to the learning dialogue text. The second weight may be learned as described above.
また、上記課題を解決するために、本発明の一形態に係る主題推定方法は、畳み込みニューラルネットワークを備え、対話の主題ラベルを推定するための主題推定システムの主題推定方法であって、対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行うトピック依存畳み込み処理ステップと、前記入力に対して、前記トピックに依存しない畳み込み演算を行うトピック非依存畳み込み処理ステップと、前記トピック依存畳み込み処理ステップの出力とトピック非依存畳み込み処理ステップの出力とに対してプーリング処理を行うプーリング処理ステップと、前記プーリング処理ステップの出力に対して全結合処理を行う全結合処理ステップとを含む。 In order to solve the above problem, a theme estimation method according to an aspect of the present invention is a theme estimation method of a theme estimation system that includes a convolutional neural network and estimates a theme label of a dialog. A topic-dependent convolution processing step that performs a topic-dependent convolution operation on the input of a word string vector sequence corresponding to the dialogue text that has been transcribed, and a topic non-conformation that performs a topic-independent convolution operation on the input. A pooling processing step for performing a pooling process on the dependent convolution processing step, an output of the topic-dependent convolution processing step and an output of the topic-independent convolution processing step, and a fully combining process on the output of the pooling processing step And a full join processing step.
これにより、学習データが十分でない場合でも、対話の主題をより高精度に推定することができる主題推定方法を実現できる。より具体的には、トピックに依存した畳み込み演算の結果とトピックに依存しない畳み込み演算の結果とが後段で統合されるため、学習データの量が少ない場合にも高い主題推定性能が得られる。 Thereby, even when the learning data is not sufficient, it is possible to realize a theme estimation method that can estimate the theme of the dialogue with higher accuracy. More specifically, since the result of the topic-dependent convolution operation and the result of the topic-independent convolution operation are integrated at a later stage, high subject estimation performance can be obtained even when the amount of learning data is small.
また、前記トピック依存畳み込み処理ステップでは、前記単語列ベクトル列と、依存するトピックである依存トピックを示す特定の単語で発火する第1重み(A)との畳み込み演算を行い、前記トピック非依存畳み込み処理ステップでは、前記単語列ベクトル列と、前記依存トピック以外のトピックを示す単語で発火する第2重み(Z)との畳み込み演算を行い、前記プーリング処理ステップでは、前記トピック依存畳み込み処理ステップの出力と前記トピック非依存畳み込み処理ステップの出力とから時間方向の最大値を取り出す演算を行い、全結合処理ステップでは、前記プーリング処理ステップの出力に対して、結合重みを用いた重み付き加算を行った後に、確率分布化を行うことで全結合処理を行うとしてもよい。 In the topic-dependent convolution processing step, the topic-independent convolution is performed by performing a convolution operation on the word string vector sequence and a first weight (A) that fires at a specific word indicating a dependent topic that is a dependent topic. In the processing step, a convolution operation is performed between the word string vector sequence and a second weight (Z) ignited by a word indicating a topic other than the dependent topic. In the pooling processing step, an output of the topic-dependent convolution processing step is performed. And the topic-independent convolution processing step output for extracting the maximum value in the time direction, and in the all connection processing step, weighted addition using the connection weight is performed on the output of the pooling processing step. Later, it is also possible to perform the full connection process by performing probability distribution.
また、前記プーリング処理ステップの出力の確率分布と閾値とを比較することにより、前記対話の主題ラベルを推定して出力する出力ステップと、を含むとしてもよい。 And an output step of estimating and outputting the subject label of the dialogue by comparing the probability distribution of the output of the pooling processing step with a threshold value.
また、前記対話テキストに対応する単語列ベクトル列の入力を行う入力ステップを含み、前記入力ステップは、さらに、対話を書き起こした対話テキストであって前記対話が時系列にテキスト化された対話テキストを受理する受理ステップと、前記対話テキストに含まれる単語列の各単語のベクトルを所定の方法により計算して単語列ベクトル列を得るベクトル化ステップとを含むとしてもよい。 And an input step for inputting a word string vector sequence corresponding to the dialog text, wherein the input step further includes dialog text in which the dialog is transcribed, wherein the dialog is converted into text in time series. And a vectorizing step of calculating a word vector of each word string included in the dialog text by a predetermined method to obtain a word string vector string.
また、さらに、前記畳み込みニューラルネットワークに、対話を書き起こした学習用対話テキストであって前記対話の時系列のテキストがトピックごとのセグメントに予め分割され、かつ、分割されたセグメントごとに対応するトピックのラベルが予め付与された学習用対話テキストを、学習データとして用いて、前記トピック依存畳み込み処理ステップが依存するトピックである依存トピックに依存する畳み込み演算を行うよう前記第1重みを学習させる第1ステップと、前記学習用対話テキストを用いて、前記トピック非依存畳み込み処理ステップが当該依存トピックに依存しない畳み込み演算を行うよう前記第2重みを学習させる第2ステップとを含むとしてもよい。 Further, the conversational text for learning that transcribes the conversation to the convolutional neural network, the time-series text of the conversation being divided in advance into segments for each topic, and topics corresponding to the divided segments. A learning dialog text pre-assigned with a label is used as learning data to learn the first weight so as to perform a convolution operation depending on a dependent topic which is a topic on which the topic-dependent convolution processing step depends. And a second step of learning the second weight so that the topic-independent convolution processing step performs a convolution operation independent of the dependent topic using the learning dialogue text.
また、前記第1ステップでは、前記学習用対話テキストに対応する単語列ベクトル列のうち前記依存トピックに関連する単語列ベクトル列を用いて前記第1重みを学習させ、前記第2ステップでは、前記学習用対話テキストに対応する単語列ベクトル列のうち前記依存トピック以外のトピックに関連する単語列ベクトル列を用いて前記第2重みを学習させるとしてもよい。 In the first step, the first weight is learned using a word string vector string related to the dependent topic among word string vector strings corresponding to the learning dialogue text, and in the second step, the first weight is learned. The second weight may be learned using a word string vector string related to a topic other than the dependent topic among word string vector strings corresponding to the learning dialogue text.
また、さらに、前記学習用対話テキストに対応する単語列ベクトル列のうち第1依存トピックに関連する単語列ベクトル列の数が第2依存トピックに関連する単語列ベクトル列の数よりも少ない場合、Webを検索して得た前記第1依存トピックに関連する対話テキストを前記学習データの半教師データとして用いて、前記第1ステップおよび前記第2ステップを行うとしてもよい。 Further, when the number of word string vector sequences related to the first dependent topic among the word string vector sequences corresponding to the learning dialogue text is smaller than the number of word string vector sequences related to the second dependent topic, The first step and the second step may be performed using a dialogue text related to the first dependent topic obtained by searching the Web as semi-teacher data of the learning data.
なお、本発明は、装置として実現するだけでなく、このような装置が備える処理手段を備える集積回路として実現したり、その装置を構成する処理手段をステップとする方法として実現したり、それらステップをコンピュータに実行させるプログラムとして実現したり、そのプログラムを示す情報、データまたは信号として実現したりすることもできる。そして、それらプログラム、情報、データおよび信号は、CD−ROM等の記録媒体やインターネット等の通信媒体を介して配信してもよい。 The present invention is not only realized as an apparatus, but also realized as an integrated circuit including processing means included in such an apparatus, or realized as a method using the processing means constituting the apparatus as a step. Can be realized as a program for causing a computer to execute, or as information, data, or a signal indicating the program. These programs, information, data, and signals may be distributed via a recording medium such as a CD-ROM or a communication medium such as the Internet.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態は、いずれも本発明の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることも出来る。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that each of the embodiments described below shows a specific example of the present invention. Numerical values, shapes, components, steps, order of steps and the like shown in the following embodiments are merely examples, and are not intended to limit the present invention. In addition, among the constituent elements in the following embodiments, constituent elements that are not described in the independent claims indicating the highest concept are described as optional constituent elements. In all the embodiments, the contents can be combined.
(実施の形態1)
本実施の形態では、畳み込みニューラルネットワークを備え、対話の主題ラベルを推定する主題推定システムについて説明する。なお、以下では、まず、図1を用いて比較例の主題推定システムが利用する畳み込みニューラルネットワークの構造等を説明した後に、図3を用いて本実施の形態における主題推定システムが利用する畳み込みニューラネットワークの構造等を説明する。
(Embodiment 1)
In the present embodiment, a subject estimation system that includes a convolutional neural network and estimates a subject label of an interaction will be described. In the following, first, the structure of the convolutional neural network used by the subject estimation system of the comparative example will be described with reference to FIG. 1, and then the convolution neural network used by the subject estimation system according to the present embodiment will be used with reference to FIG. The network structure and the like will be described.
[比較例の主題推定システムの構造等]
図1は、比較例の主題推定システムが利用する畳み込みニューラルネットワーク80の構造を示す図である。図1に示す畳み込みニューラルネットワーク80は、入力特徴81と、畳み込み層82と、プーリング層83と、全結合層84とを備える。
[Structure of subject estimation system of comparative example]
FIG. 1 is a diagram showing the structure of a convolutional
入力特徴81は、入力となる単語列を所定の方法でベクトル列に変換する。畳み込み層82は、1から数単語の近接するベクトル列を切り出した上で、学習済みの重み行列を用いて畳み込み演算を行う。プーリング層83は、畳み込み層82の出力に対して、時間方向の最大値を求めるという演算を行う。全結合層84は、全結合層84の出力素子ごとにプーリング層83の出力に対して結合重みを掛けて加算し、最後にsoftmax関数を用いて確率分布化する。
The
このような比較例における畳み込みニューラルネットワーク80を主題推定タスクに用いると、学習データを用いた学習により、対話中の単語列の中で主題と関連性の高い部分の重みが大きくなり、特定の言語表現が含まれる場合に特定の主題を推定することができる。
When the convolutional
図1の入力特徴81内の太線で示した枠は、時間窓である。図1には、1単語用の時間窓と2単語用の時間窓との2種類が示されている。これらの時間窓は、時間方向に沿って、入力となる単語列を変換したベクトル列の最初から最後までシフトされ、それぞれの時間窓ごとに畳み込み演算と非線形処理が行われ、出力値を得る。これらを保持する出力素子が、畳み込み層82内の太線で示した四角で表現されている。
A frame indicated by a thick line in the
なお、畳み込みニューラルネットワーク80を利用した畳み込み演算は、フィルター処理とも呼ばれる。また、畳み込み層82の出力素子の数は、フィルターの総数と時間窓のシフト数との掛け算で決まる。一方、全結合層84は、全ての主題ラベルのそれぞれに対応する出力素子を有するので、全結合層84の出力素子の数は、全ての主題ラベルの数で決まる。したがって、比較例の畳み込みニューラルネットワーク80を利用した主題推定システムでは、多クラス分類問題として問題(主題推定)が解かれることなる。
Note that the convolution operation using the convolutional
しかしながら、上述したように、比較例の畳み込みニューラルネットワーク80では、学習データが少ない場合、学習データが少ない主題の推定精度に引っ張られてしまい、対話の主題を推定するタスクを精度よく行えないという課題がある。
However, as described above, in the convolutional
さらに、比較例の畳み込みニューラルネットワーク80では、マルチラベル出力(言語表現の多義性)に対応していないという課題もある。これについて図2を用いて説明する。
Furthermore, the convolutional
図2は、比較例の畳み込みニューラルネットワーク80がマルチラベル出力に対応しないことを説明するための図である。
FIG. 2 is a diagram for explaining that the convolutional
図2の(a)および(b)には、対話中の単語列中に同一の単語「rate」があるが別のトピックである対話文を畳み込みニューラルネットワーク80を利用する主題推定システムが主題を推定した場合が示されている。より具体的には、図2の(a)には、トピックが「ACCOMMODATION」(「宿泊」)で、対話中の単語列「The room rate is twenty dollars.」の場合に、比較例の畳み込みニューラルネットワーク80を利用する主題推定システムが推定した主題ラベル「Pricerange」が示されている。図2の(b)には、トピックが「ATTRACTION」(「アトラクション」)で、対話中の単語列「So kids have to pay the same rate as adults.」の場合に、比較例の畳み込みニューラルネットワーク80を利用する主題推定システムが推定した主題ラベル「Pricerange」が示されている。
2 (a) and 2 (b), a subject estimation system using a
図2の(b)では、対話中の単語列中に同一の単語「rate」があるものの図2の(a)とは別のトピックであるため、主題ラベル「Fee」が正解となる。しかし、図2の(b)では、図2の(a)と同じ主題ラベル「Pricerange」が推定されている。このように、比較例の畳み込みニューラルネットワーク80を利用する主題推定システムでは、対話中の単語列中に同一の単語「rate」があるが文脈で主題が変わる場合(言語表現に多義性がある場合)、対応できないという課題もある。
In FIG. 2B, although the same word “rate” is present in the word string being talked about, the topic label “Fee” is correct because it is a different topic from FIG. However, in FIG. 2B, the same subject label “Pricerange” as in FIG. 2A is estimated. As described above, in the subject estimation system using the convolutional
[本実施の形態の主題推定システムの構造等]
図3は、本実施の形態における主題推定システムが利用する畳み込みニューラルネットワークの構造を示す図である。
[The structure of the subject estimation system of this embodiment]
FIG. 3 is a diagram showing the structure of a convolutional neural network used by the subject estimation system in the present embodiment.
図3に示す畳み込みニューラルネットワーク10は、入力特徴11と、畳み込み層12と、プーリング層13と、全結合層14とを備える。詳細は後述するが、入力特徴11はトピックに応じて畳み込み層12を構成するトピック依存の畳み込み層およびトピック非依存の畳み込み層に結合される。また、トピックに応じてプーリング層13がトピック依存の畳み込み層とトピック非依存の畳み込み層に結合される。さらにトピックに応じて全結合層14がプーリング層13に結合される。
The convolutional neural network 10 shown in FIG. 3 includes an
入力特徴11は、単語列が入力され、入力された単語列を所定の方法でベクトル列に変換する。なお、入力特徴11には、入力対象の単語列が所定の方法で変換されたベクトル列が入力されるとしてもよい。つまり、入力特徴11は、対話を書き起こした対話テキストに対応する単語列ベクトル列が入力されてもよい。より具体的には、入力特徴11には、対話を書き起こした対話テキストであって対話が時系列にテキスト化された対話テキストに含まれる単語列の各単語のベクトルを所定の方法により計算して得た(変換した)単語列ベクトル列が入力されるとしてもよい。
The
入力特徴11は、入力されたベクトル列のうち、時間窓により切り出された1から数単語の近接するベクトル列のトピックに応じて、畳み込み層12を構成するトピック依存の畳み込み層またはトピック非依存の畳み込み層(後述)に結合される。
The
図3に示される例では、入力特徴11に、まず、トピック#aに関する対話を書き起こした対話テキスト「if you take a dorm bed per…」に対応する単語列ベクトル列11aが入力されている。そして、その後、入力特徴11に、トピック#bに関する対話を書き起こした対話テキスト「if you want to buy a spec…」に対応する単語列ベクトル列11bが入力されている。ここで、図3の入力特徴11内の太線で示した枠は、時間窓である。図3には、図1同様に、1単語用の時間窓と2単語用の時間窓の2種類が示されている。
In the example shown in FIG. 3, first, a word
畳み込み層12は、単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行う1以上のトピック依存畳み込み層と、当該単語列ベクトル列の入力に対して、当該トピックに依存しない畳み込み演算を行う1つのトピック非依存畳み込み層とで構成される。トピック依存畳み込み層は、単語列ベクトル列と、当該依存するトピックを示す特定の単語で発火する第1重みとの畳み込み演算を行う。また、トピック非依存畳み込み層は、単語列ベクトル列と、当該依存するトピック以外の(当該依存トピックに依存しない)トピックを示す単語で発火する第2重みとの畳み込み演算を行う。
The
このように、畳み込み層12は、トピックと関連づけたトピック依存畳み込み層とトピックと関連づけられていないトピック非依存畳み込み層とを有する。そして、入力特徴11は、トピックに応じて、トピック依存畳み込み層またはトピック非依存畳み込み層に結合される。
Thus, the
本実施の形態では、例えばトピックが#aと#bの2種類であるとして説明する。なお、もちろんトピックは2種類に限らないのはいうまでもない。 In the present embodiment, for example, it is assumed that there are two types of topics, #a and #b. Of course, the topic is not limited to two types.
畳み込み層12は、図3に示すように、トピック#aに依存した畳み込み演算を行うトピック依存畳み込み層12aおよびトピック#bに依存した畳み込み演算を行うトピック依存畳み込み層12bと、これらトピックに依存しない畳み込み演算を行うトピック非依存畳み込み層12zとの3つのパートで構成される。
As shown in FIG. 3, the
より具体的には、トピック依存畳み込み層12aは、単語列ベクトル列11aにおいて切り出された1から数単語の近接するベクトル列と、トピック#aを示す特定の単語で発火する学習済みの重み行列(第1重み)との畳み込み演算を行う。トピック依存畳み込み層12bは、単語列ベクトル列11bにおいて切り出された1から数単語の近接するベクトル列と、トピック#bを示す特定の単語で発火する学習済みの重み行列(第1重み)との畳み込み演算を行う。トピック非依存畳み込み層12zは、単語列ベクトル列11aにおいて切り出された1から数単語の近接するベクトル列および単語列ベクトル列11bにおいて切り出された1から数単語の近接するベクトル列と、トピック#aおよびトピック以外のトピックを示す単語で発火する学習済みの重み行列(第2重み)との畳み込み演算を行う。
More specifically, the topic-dependent
プーリング層13は、畳み込み層12の出力に対してプーリング処理を行う。より具体的には、プーリング層13は、トピック依存畳み込み層の出力とトピック非依存畳み込み層の出力とから時間方向の最大値を取り出す演算を行う。
The
図3に示される例では、入力特徴11に単語列ベクトル列11aが入力されたときには、トピック依存畳み込み層12aおよびトピック非依存畳み込み層12zにプーリング層13aが結合される。プーリング層13aはこれらの出力から時間方向の最大値を取り出す演算を行う。また、入力特徴11に単語列ベクトル列11bが入力されたときには、トピック依存畳み込み層12bおよびトピック非依存畳み込み層12zにプーリング層13bが結合される。プーリング層13bは、これらの出力から時間方向の最大値を取り出す演算を行う。
In the example shown in FIG. 3, when the word
全結合層14は、プーリング層13の出力に対して全結合処理を行う。より具体的には、全結合層14は、プーリング層13の出力に対して、結合重みを用いた重み付き加算を行った後に、確率分布化を行う。本実施の形態では、全結合層14は、出力素子ごとにプーリング層13の出力に対して結合重みを掛けて加算し、最後にsoftmax関数を用いて確率分布化する。
The
図3に示される例では、入力特徴11に単語列ベクトル列11aが入力されたときには、プーリング層13aと全結合層14aとが結合される。全結合層14aはプーリング層13aの出力に対して結合重みを掛けて加算し、最後にsoftmax関数を用いて確率分布化する。また、入力特徴11に単語列ベクトル列11bが入力されたときには、プーリング層13bと全結合層14bとが結合される。全結合層14bは、プーリング層13bの出力に対して結合重みを掛けて加算し、最後にsoftmax関数を用いて確率分布化する。
In the example shown in FIG. 3, when the word
そして、全結合層14は、プーリング層13の出力の確率分布と閾値とを比較することにより、対話の主題ラベルを推定して出力する。
Then, the
このようにして、畳み込みニューラルネットワーク10は、入力を2クラス分類問題として解くことで当該入力に対する対話の主題ラベルを推定する。 In this way, the convolutional neural network 10 estimates the subject label of the dialogue for the input by solving the input as a two-class classification problem.
換言すると、図1で説明した比較例の全結合層84では、全ての主題ラベルのそれぞれに対応する出力素子があり、多クラス分類問題として問題が解かれていた(学習されていた)。一方、本実施の形態における畳み込みニューラルネットワーク10を利用した主題推定システムでは、それぞれの主題(トピック)に特化したトピック依存畳み込み層とトピックに特化しないトピック非依存畳み込み層を有する。そのため、図3に示すように、主題ラベルpricerangeについては、pricerangeであるか、または、pricerangeではない(NOT pricerange)という2クラス分類問題として解くことができる(学習することができる)。これによって、主題ごとの学習データの数に偏りがあっても、数の少ない主題の学習結果が、数の多い主題の学習結果に影響されないだけではく、数が少ない学習データに対する性能すなわち推定精度が改善される。
In other words, in the all
(畳み込みニューラルネットワーク10の学習)
ここで、本実施の形態における畳み込みニューラルネットワーク10の学習について説明する。
(Learning of convolutional neural network 10)
Here, learning of the convolutional neural network 10 in the present embodiment will be described.
本実施の形態では、学習データ(訓練データ)としては、対話を書き起こした学習用対話テキストであって対話の時系列のテキストがトピックごとのセグメントに予め分割され、かつ、分割されたセグメントごとに対応するトピックのラベルが予め付与された学習用対話テキストを用いる。この学習用対話テキストとしては、例えばDSTC4(Dialog State Tracking Challenge 4)のデータセットを用いてもよい。 In the present embodiment, the learning data (training data) is a learning dialogue text that transcribes a dialogue, and the dialogue time-series text is divided in advance into segments for each topic, and for each divided segment. The learning dialogue text in which the label of the topic corresponding to is assigned in advance is used. As the learning dialogue text, for example, a DSTC4 (Dialog State Tracking Challenge 4) data set may be used.
畳み込みニューラルネットワーク10において、1以上のトピック依存畳み込み層12a、12bそれぞれに、依存するトピックごとに当該トピックに依存する畳み込み演算を行わせるよう第1重みを学習させ、かつ、トピック非依存畳み込み層12zに、当該依存するトピックに依存しない畳み込み演算を行わせるよう第2重みを学習させる。1以上のトピック依存畳み込み層それぞれは、学習用対話テキストに対応する単語列ベクトル列のうち当該依存するトピックに関連する単語列ベクトル列が入力されて、当該依存するトピックに依存する畳み込み演算を行うよう第1重みを学習する。トピック非依存畳み込み層12zは、学習用対話テキストに対応する単語列ベクトル列が入力されて、当該依存するトピックに依存しない畳み込み演算を行うよう第2重みを学習する。
In the convolutional neural network 10, the first weight is learned so that each of the one or more topic-dependent
また、畳み込みニューラルネットワーク10では、畳み込み層12の畳み込み重み(第1重み、第2重み)と全結合層14の結合重みの学習を、望ましい出力と実際の出力の差(エラー)に基づいて行う。望ましい出力と実際の出力の差(エラー)に基づく学習を行うための学習アルゴリズムとしては、確率的勾配降下法(SGD)などが知られている。学習アルゴリズムは公知のものでよいので、ここでの説明は省略する。
In the convolutional neural network 10, learning of the convolution weights (first weight and second weight) of the
このような学習処理を、畳み込み層12を構成するトピック依存畳み込み層12a、トピック依存畳み込み層12bおよびトピック非依存畳み込み層12zのそれぞれに、行う。これにより、トピック依存畳み込み層12a、12bでは、トピックにより特化した言語表現と結びつくが、学習データ中のそれぞれに依存するトピックの対話文の量は限られているので学習データの量は比較的少なくなる。一方で、トピック非依存畳み込み層12zでは、トピックによらない言語表現と結びつくため学習データの量は比較的多くなる。
Such learning processing is performed on each of the topic-dependent
そして、両者(トピック依存畳み込み層12a、12bとトピック非依存畳み込み層12z)は、図3に示すように、後段(プーリング層13や全結合層14)で結びつくように構成されている。そのため、学習によりバランスが取られることになる。すなわち、学習データが多いトピックについても学習データが少ないトピックについてもトピック依存畳み込み層12a、12bとトピック非依存畳み込み層12zとの結合重みが調整される。
Then, both (topic-dependent
これにより、学習データが多いピックが対話文として入力された場合にはトピック依存畳み込み層の出力が重視され、学習データが少ないトピックが対話文として入力された場合にはトピック非依存の畳み込み層の出力が重視されるため、学習データの量の違いによる性能の差が低減される。本構成では、特に学習データが少ないトピックについての性能(推定精度)を底上げすることができる。 As a result, when a pick with a lot of learning data is input as a conversation sentence, the output of the topic-dependent convolution layer is emphasized, and when a topic with a small amount of learning data is input as a conversation sentence, the topic-independent convolution layer is output. Since the output is emphasized, the difference in performance due to the difference in the amount of learning data is reduced. In this configuration, it is possible to raise the performance (estimation accuracy) for a topic with particularly little learning data.
さらに、トピック依存畳み込み層12a、12bとトピック非依存畳み込み層12zとが、図1に示すように、上位の階層(プーリング層13や全結合層14)で結びつくように構成されているため、図2で説明したような問題も起きない。すなわち、畳み込みニューラルネットワーク10を備える本実施の形態における主題推定システムは、畳み込みニュートラルネットワークによるマルチドメイン対話主題も推定することができる。
Furthermore, since the topic-
[本実施の形態の主題推定システムの機能構成]
次に、上述した本実施の形態における主題推定システムの学習時および識別時について具体的に説明する。以下では、本主題推定システムの学習時および識別時の機能構成図と動作図を用いて説明する。
[Functional configuration of the subject estimation system of the present embodiment]
Next, the learning time and identification time of the subject estimation system in the above-described embodiment will be specifically described. Below, it demonstrates using the functional block diagram and operation | movement figure at the time of the learning and identification of this subject estimation system.
(識別時)
図4は、本実施の形態における主題推定システムの識別時の機能構成を示すブロック図である。ここでは、主題推定システムが利用する畳み込みニューラルネットワーク10を機能ブロック図として記載している。
(At identification)
FIG. 4 is a block diagram showing a functional configuration during identification of the subject estimation system in the present embodiment. Here, the convolutional neural network 10 used by the subject estimation system is described as a functional block diagram.
図4に示す本実施の形態における主題推定システムは、入力部110、単語ベクトル列制御部111、トピック依存畳み込み層計算部121、トピック非依存畳み込み層計算部123、プーリング層計算部131、全結合層計算部141、および、出力部150を備える。さらに、本主題推定システムは、重みA(第1重み)を格納する格納部122と、重みZ(第2重み)を格納する格納部124と、重みfを格納する格納部142とを備える。ここで、入力部110と単語ベクトル列制御部111とは、上述した入力特徴11の機能構成である。トピック依存畳み込み層計算部121と格納部122とトピック非依存畳み込み層計算部123と格納部124とは、上述した畳み込み層12の機能構成である。プーリング層計算部131は上述したプーリング層13の機能構成であり、全結合層計算部141と格納部142とは上述した全結合層14の機能構成である。
The subject estimation system in the present embodiment shown in FIG. 4 includes an
図4に示す主題推定システムには、単語列情報51とトピック情報52とからなる入力情報50が入力される。入力部110は、単語列情報51から単語列を受け取り、同時にトピック情報52からトピックを受け取る。単語ベクトル列制御部111は、単語列を所定の方法によりベクトル列に変換する。ここで、単語列をベクトルに変換する方法は、bag-of-wordsと呼ばれる方法やその次元を圧縮して用いる方法が種々提案されており、それらの公知の方法を上記所定の方法とすればよい。
In the subject estimation system shown in FIG. 4,
トピック依存畳み込み層計算部121は、単語列ベクトル列と重みA(第1重み)を用いて畳み込み演算を行う。この重みA(第1重み)は、トピックごとのフィルターの総数だけ存在する。トピック非依存畳み込み層計算部123は、単語列ベクトル列と重みZ(第2重み)を用いて畳み込み演算を行う。この重みZ(第2重み)はトピック非依存のフィルターの数だけ存在する。
The topic-dependent convolution
プーリング層計算部131は、トピック依存畳み込み層計算部121とトピック非依存畳み込み層計算部123のそれぞれのフィルターに対応する出力を時間方向に見て最大値を取り出す。
The pooling
全結合層計算部141は、出力素子ごとにフィルターに対応する出力に重みfを掛けて加算し、最後にsoftmax関数により確率分布化する。Softmax関数により、例えば、図3に示す例のように出力の主題が”pricerange”と”NOT pricerange”である場合に、2つの素子の出力は、それぞれ0以上で、和が1となるように調整される。
The total coupling
出力部150は、閾値(例えば0.5)と全結合層計算部141の結果とを比較し、確率分布が閾値を超える主題を出力する。
The
なお、本主題推定システムは、図5に示すようなハードウェア構成のコンピュータにより実行される。図5は、主題推定システムを実行するのに必要なコンピュータのハードウェア構成の一例を示す図である。 The subject estimation system is executed by a computer having a hardware configuration as shown in FIG. FIG. 5 is a diagram illustrating an example of a hardware configuration of a computer necessary for executing the subject estimation system.
本主題推定システムを実行するコンピュータは、図5に示すように、CPU1001、メモリ1002、外部記憶装置1003、ネットワークインターフェイス1004、出力装置1006及び入力装置1007を備える。これらは、バスにより接続される。
As shown in FIG. 5, the computer that executes the present subject estimation system includes a
本主題推定システムのすべての演算はCPU1001で行われ、重み等の更新が必要な値やプログラムはメモリ1002上に記憶される。また、学習データなどの大量のデータは外部記憶装置1003に記憶される。ネットワークインターフェイス1004は、インターネット1005上のデータにアクセスして外部から学習データを取り込むために用いられる。また、ユーザーインターフェイスとして、出力装置1006と入力装置1007も必要である。入力装置1007は、入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。
All operations of the subject estimation system are performed by the
図6は、図4に示す識別時の主題推定システムの動作を示すフローチャートである。 FIG. 6 is a flowchart showing the operation of the subject estimation system at the time of identification shown in FIG.
まず、入力部110は、入力単語列とトピックラベルとを受理する(S101)。次に、単語ベクトル列制御部111は、入力単語列の各単語を所定の方法により計算して単語(単語列)のベクトル列を得る(S102)。次に、トピック依存畳み込み層計算部121は、単語のベクトル列と格納部122に記憶する重みA(第1重み)との畳み込み演算(トピック依存畳み込み演算)を行う(S103)。次に、トピック非依存畳み込み層計算部123は、単語のベクトル列と格納部124に記憶する重みZ(第2重み)との畳み込み演算(トピック非依存畳み込み演算)を行う(S104)。次に、プーリング層計算部131は、トピック依存畳み込み層計算部121の出力とトピック非依存畳み込み層計算部123の出力とから各フィルターの最大値を取り出すプーリング処理を行う(S105)。次に、全結合層計算部141は、プーリング層計算部131の出力に対して、全結合層処理を行う(S106)。より具体的には、全結合層計算部141は、プーリング層計算部131の出力に対して、格納部122に記憶する重みfにより重み付けを行って、加算する。そして、全ての出力ラベルに対しての重み付き加算を行った後に、確率分布化を行う。最後に、出力部150は、出力ラベルに対する確率分布と閾値とを比較することで、出力ラベルを決定する(S107)。
First, the
なお、図4に示す主題推定システムがマルチラベル出力を行うときには、S103とS104との処理を並行に行い、後段でそれらの結果を統合すればよい。以下の学習時でも同様である。 Note that when the theme estimation system shown in FIG. 4 performs multi-label output, the processes of S103 and S104 may be performed in parallel, and the results thereof may be integrated at a later stage. The same applies to the following learning.
(学習時)
図7は、本実施の形態における主題推定システムの学習時の機能構成を示すブロック図である。図4と同様の要素には同一の符号を付しており、詳細な説明を省略する。図7に示す学習時の主題推定システムは、図4に示す識別時の主題推定システム同様に、上述した図5に示すようなハードウェア構成のコンピュータにより実行される。
(During learning)
FIG. 7 is a block diagram showing a functional configuration during learning of the subject estimation system in the present embodiment. Elements similar to those in FIG. 4 are denoted by the same reference numerals, and detailed description thereof is omitted. The subject estimation system at the time of learning shown in FIG. 7 is executed by a computer having a hardware configuration as shown in FIG. 5 described above, similarly to the subject estimation system at the time of identification shown in FIG.
図7に示す学習時の機能構成図は、図4に示す識別時の機能構成図と比較して、学習データ60と、エラー判定部160と、重み更新部161とが異なる。
7 is different from the functional configuration diagram at the time of identification shown in FIG. 4 in the learning
学習時の本主題推定システムには、学習データ(訓練データ)として、単語列情報61とトピック情報62とが入力される。また、学習データ60には、主題情報63は、学習時の本主題推定システムに入力される単語列情報51およびトピック情報52に対応した主題情報63であって出力として望ましい主題情報63が記憶されている。
The subject string estimation system at the time of learning receives
エラー判定部160は、出力部150で出力される主題ラベルに対する確率分布と、主題情報63から得られる望ましい主題ラベルの確率を1.0とし、他のラベルの確率を0.0とした場合の確率分布と比較し、それらの確率分布の差をエラーとして出力する。
The
重み更新部161は、所定の学習アルゴリズムにより、エラー判定部160から出力されるエラーの値に基づき、重みA(第1重み)、重みZ(第2重み)、および重みfそれぞれの更新量を決定し、それらの更新を実行する。このような重みの更新は、学習データ全体にわたって、学習係数を変化させながら繰り返し実行される。
Based on the error value output from the
図8は、図7に示す学習時の主題推定システムの動作を示すフローチャートである。なお、S201〜S207の処理は、図6に示すS101〜S107の処理と同様であるので説明を省略する。 FIG. 8 is a flowchart showing the operation of the subject estimation system during learning shown in FIG. Note that the processing of S201 to S207 is the same as the processing of S101 to S107 shown in FIG.
学習時の主題推定システムは、S207までの処理により入力単語列とトピックとに基づき、主題ラベルに対する確率分布を推定している。次に、エラー判定部160は、主題情報63から望ましい主題を得て、主題ラベルに対する確率分布の望ましい値(確率)をセットし、セットした値と推定した主題ラベルに対する確率分布との差をエラーとして計算する(S208)。次に、重み更新部161は、トピック依存畳み込み層計算部121で用いた重みA(第1重み)と全結合層計算部141で用いる、現在のトピックに関連する重みfとトピック非依存畳み込み層計算部123で用いた重みZ(第1重み)とを、所定の学習アルゴリズムにより更新する(S209)。
The subject estimation system at the time of learning estimates the probability distribution for the subject label based on the input word string and the topic by the processing up to S207. Next, the
なお、これら学習は予め設定した終了条件を満たすかどうかの終了判定を行い(S210)、終了条件が満たされるまで繰り返される。この終了判定には、各重みの更新を行ってもエラーが改善されないことを条件としたり、エラーが閾値以下になったことを条件としたりする。 Note that these learnings are performed to determine whether or not a preset termination condition is satisfied (S210), and are repeated until the termination condition is satisfied. This termination determination is made on the condition that the error is not improved even if each weight is updated, or on the condition that the error is equal to or less than the threshold value.
[効果等]
以上のように、本実施の形態の畳み込みニューラルネットワーク10を利用する主題推定システムは、学習データが十分でない場合でも、対話の主題をより高精度に推定することができる。また、この主題推定システムは、マルチドメイン対話主題も推定することができる。
[Effects]
As described above, the subject estimation system using the convolutional neural network 10 according to the present embodiment can estimate the subject of the conversation with higher accuracy even when the learning data is not sufficient. The subject estimation system can also estimate multi-domain interaction themes.
より具体的には、畳み込みニューラルネットワーク10の畳み込み層12をトピックに依存するトピック依存畳み込み層とトピックに依存しないトピック非依存畳み込み層とで構成し、プーリング層でそれらをマージし、全結合層でトピック依存畳み込み層由来の出力とトピック非依存畳み込み層由来の出力とのバランスを取る。これによって、学習データが多いピックが対話文として入力された場合にはトピック依存畳み込み層の出力が重視され、学習データが少ないトピックが対話文として入力された場合にはトピック非依存の畳み込み層の出力が重視されるため、学習データの量の違いによる性能の差が低減される。
More specifically, the
ここで、本実施の形態の畳み込みニューラルネットワーク10を利用する主題推定システムが、比較例のニューラルネットワークを利用する主題推定システムと比較して、推定精度が向上していることについて実験的検証結果を用いて説明する。 Here, an experimental verification result is shown that the estimation accuracy of the subject estimation system using the convolutional neural network 10 of the present embodiment is improved as compared with the subject estimation system using the neural network of the comparative example. It explains using.
図9は、本実施の形態における主題推定システムの実験的検証結果を示す図である。図9には、Dialog State Tracking Challenge 4 (DSTC4)の対話コーパスを用いたときの、比較例と本実施の形態の主題推定システムの主題推定の精度を比較した結果が示されている。DSTC4対話コーパスは5つのドメイン(Attraction, Accommodation, Food, Shopping, Transportation)の対話が含まれる。各ドメインにおいて、対話セクションに対してPricerange、Preference、Exhibitなどの全部54種類の主題を推定することができるが、図9には、対話主題ラベルが「Pricerange」の場合の結果が示されている。また、図9に示す「ACCOMMODATION(42/30)」の(42/30)は、学習データの数が42で、テストデータの数が30であることを意味している。 FIG. 9 is a diagram showing an experimental verification result of the subject estimation system in the present embodiment. FIG. 9 shows the result of comparing the accuracy of the subject estimation of the subject estimation system of the present embodiment and the comparative example when using the Dialog State Tracking Challenge 4 (DSTC4) dialogue corpus. The DSTC4 dialogue corpus includes dialogue of five domains (Attraction, Accommodation, Food, Shopping, Transportation). In each domain, 54 types of themes such as Pricerange, Preference, and Exhibit can be estimated for the dialogue section. FIG. 9 shows the result when the dialogue subject label is “Pricerange”. . Further, (42/30) of “ACCOMMODATION (42/30)” shown in FIG. 9 means that the number of learning data is 42 and the number of test data is 30.
比較例のGeneral Modelは、例えば図1に示す畳み込みニューラルネットワーク80を利用した主題推定システムであり、すべてのトピックを一つの畳み込みニューラルネットワーク80で学習させた主題推定システムを意味する。また、比較例のTopic-specific Modelは、Attractionのドメインの対話のみ学習するニューラルネットワークを利用する主題推定システムなど、ドメイン毎にドメインに対応する主題推定システムを構成する場合を意味する。つまり、トピック毎に別の主題推定システムのニューラルネットワークに学習させた場合である。
The general model of the comparative example is a theme estimation system using the convolutional
一方、Multi-topic modelは、図3に示す畳み込みニューラルネットワーク10を利用した主題推定システムであり、本実施の形態における主題推定システムを意味する。 On the other hand, the multi-topic model is a theme estimation system using the convolutional neural network 10 shown in FIG. 3 and means the theme estimation system in the present embodiment.
図9に示すように、実験結果では、Multi-topic modelは、対話主題ラベルが「Pricerange」の場合の各ドメインのすべての正解率が比較例のものより高い。また、推定精度を示すF値(overall)に関してもMulti-topic modelは、2つの比較例より向上していることがわかる。 As shown in FIG. 9, in the experimental results, the multi-topic model has a higher accuracy rate of each domain when the dialogue subject label is “Pricerange” than that of the comparative example. It can also be seen that the multi-topic model is improved over the two comparative examples with respect to the F value (overall) indicating the estimation accuracy.
なお、DSTC4対話コーパスを用いた全対話主題ラベルの推定精度は、Multi-topic modelが48%、General Modelが43%、Topic-specific Modelが43%であったことからも、Multi-topic modelは、2つの比較例よりも推定精度が向上しているのがわかる。 Note that the estimation accuracy of all conversation subject labels using the DSTC4 dialogue corpus was 48% for Multi-topic model, 43% for General Model, and 43% for Topic-specific Model. It can be seen that the estimation accuracy is improved over the two comparative examples.
(実施の形態2)
実施の形態1では、畳み込み層12をトピックに依存するトピック依存畳み込み層とトピックに依存しないトピック非依存畳み込み層とで構成することで、主題推定の推定精度が向上することについて説明した。この畳み込み層12の構成では、上述したように、トピック依存畳み込み層に対する学習データが少なくなる傾向がある。本実施の形態では、学習データの不足を補うために、実施の形態1で説明した畳み込みニューラルネットワーク10を利用する主題推定システムが半教師有り学習を利用する場合について機能構成図と動作図を用いて説明する。
(Embodiment 2)
In Embodiment 1, it has been described that the estimation accuracy of subject estimation is improved by configuring the
図10は、本実施の形態における主題推定システムの追加学習時の機能構成を示すブロック図である。図7と同様の要素には同一の符号を付しており、詳細説明を省略する。図10に示す追加学習時の主題推定システムは、図7に示す学習時の主題推定システム同様に、上述した図5に示すようなハードウェア構成のコンピュータにより実行される。 FIG. 10 is a block diagram showing a functional configuration during additional learning of the subject estimation system in the present embodiment. Elements similar to those in FIG. 7 are denoted by the same reference numerals, and detailed description thereof is omitted. The subject estimation system at the time of additional learning shown in FIG. 10 is executed by a computer having a hardware configuration as shown in FIG. 5 described above, similarly to the subject estimation system at the time of learning shown in FIG.
図10に示す追加学習時の機能構成図は、図7に示す学習時の機能構成図と比較して、外部データ取得部170が追加されている。
Compared with the functional configuration diagram at the time of learning shown in FIG. 7, the external
外部データ取得部170は、学習用対話テキストに対応する単語列ベクトル列のうちある依存トピックに関連する単語列ベクトル列の数が別の依存トピックに関連する単語列ベクトル列の数よりも少ない場合には、Webを検索して得たある依存トピックに関連する対話テキストを学習データの半教師データとして取得する。
When the number of word string vector sequences related to a certain dependent topic is less than the number of word string vector sequences related to another dependent topic among the word string vector sequences corresponding to the learning dialogue text, the external
より具体的には、外部データ取得部170は、例えば対話データの内容が旅行のプランニングに関する場合、インターネットの旅行の口コミサイトから旅行に関するテキスト情報を教師なし学習データとして取得する。しかし、旅行の口コミサイトの情報には、上述した公知のデータセットを用いた学習データ(教師あり学習データ)のように主題情報の正解ラベルは付与されていない。また、旅行の口コミサイトの情報には、トピックラベルも付与されていない。
More specifically, when the content of the dialog data relates to travel planning, for example, the external
そこで、本実施の形態の主題推定システムは、このような教師なし学習データである旅行の口コミサイトの情報に擬似的に正解ラベルを付与することで教師あり学習データを増やす。これにより、量の少ないトピックに関する教師あり学習データを増やすことができる。より詳細には、図10に示す主題推定システムは、識別時の動作(図6に示すS101〜S107の識別処理)を行い、主題を推定する。また、図10に示す主題推定システムは、旅行の口コミサイトの情報のトピックについては、全てのラベルについて、順に入力する。さらに、こようにして得られた、トピックに対応した全結合層計算部141の出力の主題の推定確率が予め設定した閾値より大きいものに限定して、トピックのラベルと主題のラベルを付与する。
Therefore, the subject estimation system according to the present embodiment increases the supervised learning data by giving a correct answer label to the information of the travel word-of-mouth site that is such unsupervised learning data. Thereby, supervised learning data regarding a topic with a small amount can be increased. More specifically, the subject estimation system shown in FIG. 10 performs an operation at the time of identification (identification processing in S101 to S107 shown in FIG. 6) to estimate a subject. In addition, the subject estimation system shown in FIG. 10 sequentially inputs all the labels for the topic of information on the word-of-mouth travel site. Furthermore, the topic label and the subject label are assigned only to those obtained by the above-described method so that the estimated probability of the theme of the output of the total connected
次に、図10に示す主題推定システムは、トピックのラベルと主題のラベルを付与した旅行の口コミサイトの情報を用いて、再度、学習時の動作(図8に示すS201〜S210の学習処理)を行い、再度旅行の口コミサイトの情報に対する識別処理と、再度の学習処理とを繰り返す。なお、このように繰り返す学習処理(半教師あり学習処理)においては、閾値を初めは高く設定し、徐々に低くするとよい。また、口コミサイトからテキストデータを得る際に、例えば、タイトルがexhibitionであれば、主題ラベルのexhibitに関連する内容であるということが期待できるので、主題ラベルごとに関連語句を設定して、タイトルなどで制限を加えると効果的である。また、トピックラベルについてもタイトルなどから制限を加えると効果的である。つまり、外部データ取得部170は、旅行の口コミサイトのレビュー文などの外部の教師なしデータを取得し、取得した当該教師なし学習データから、対話主題と無関係なデータをキーワードで除外することで、有用な所定の対話主題に対応する教師あり学習データを取得することができる。
Next, the subject estimation system shown in FIG. 10 uses the information on the word-of-mouth site of the trip to which the topic label and the subject label are assigned, and again performs the learning operation (the learning process in S201 to S210 shown in FIG. 8). The identification process for the travel review site information and the learning process again are repeated. In the learning process that repeats in this way (semi-supervised learning process), the threshold value may be initially set high and gradually reduced. Also, when obtaining text data from a word-of-mouth site, for example, if the title is an exhibition, it can be expected that the content is related to the subject label exhibit, so set a related phrase for each subject label, It is effective to add restrictions such as. In addition, it is effective to limit the topic label from the title. In other words, the external
図11は、図10に示す追加学習時の主題推定システムの動作を示すフローチャートである。 FIG. 11 is a flowchart showing the operation of the subject estimation system during additional learning shown in FIG.
まず、教師あり学習データを準備する(S301)。これは、例えば、人間同士の対話データを音声で収録し、人手によって書き起こす。または、キーボード入力によるチャットを行い、テキストを保存する。さらに、対話の中で、どこからどこまでがなんと言うトピックであるかを認定するというアノテーションを人手で行う。アノテーションには、クラウドソーシングを利用することができる。しかし、これらの作業にはコストがかかるため、学習用データは学習するのに不十分であることが多い。 First, supervised learning data is prepared (S301). For example, dialogue data between humans is recorded by voice and written manually. Or, chat by keyboard input and save the text. Furthermore, in the dialogue, an annotation is given manually to identify what is the topic from where to where. Crowd sourcing can be used for annotation. However, since these operations are costly, the learning data is often insufficient to learn.
次に、本実施の形態の主題推定システムは、得られた教師あり学習データを用いて、S201〜S210の学習処理を行う(S302)。 Next, the subject estimation system of the present embodiment performs the learning process of S201 to S210 using the obtained supervised learning data (S302).
次に、外部データ取得部170は、トピックや主題に関連する教師なし学習データを取得する(S303)。具体的には、外部データ取得部170は、上述したように、単に旅行の口コミサイトという粒度での絞り込んで取得するのではなく、トピックや主題のラベルに関連する語彙を用いて、タイトルやその他の見出しを利用して、より細かい絞込みを行ったものを教師なし学習データ(単語列)として取得する。
Next, the external
次に、本実施の形態の主題推定システムは、S302の学習処理により学習した畳み込みニューラルネットワーク10を用いて、教師なし学習データのトピックラベルと主題ラベルとを推定し、推定したものを当該教師なし学習データに対してトピックラベルと主題ラベルとして付与する(S304)。 Next, the subject estimation system of the present embodiment estimates the topic label and the subject label of unsupervised learning data using the convolutional neural network 10 learned by the learning process of S302, and the estimated result is obtained without the teacher. A topic label and a subject label are assigned to the learning data (S304).
次に、本実施の形態の主題推定システムは、トピックラベルと主題ラベルとが付与された当該教師なし学習データを用いて、再度、S201〜S210の学習処理を行う(S305)。S302による学習結果とS305による学習結果とでは畳み込みニューラルネットワーク10の重み(第1重み、第2重み)が変化するため、それに応じてS304で推定するトピックラベルと主題ラベルも変化する。 Next, the subject estimation system of the present embodiment performs the learning process of S201 to S210 again using the unsupervised learning data to which the topic label and the subject label are assigned (S305). Since the weight (first weight, second weight) of the convolutional neural network 10 changes between the learning result in S302 and the learning result in S305, the topic label and the subject label estimated in S304 also change accordingly.
次に、本実施の形態の主題推定システムは、重みの更新の変化量などを基準とした終了判定を行う(S306)。終了条件を満たさない場合は、S304とS305を繰り返す。 Next, the subject estimation system according to the present embodiment performs an end determination based on the amount of change in weight update or the like (S306). If the end condition is not satisfied, S304 and S305 are repeated.
[効果等]
以上のように、本実施の形態の畳み込みニューラルネットワーク10を利用する主題推定システムは、学習データが十分でない場合でも、教師なし学習データを識別処理し擬似的に正解ラベルを付与して学習処理を繰り返し行うことで、教師有り学習データを十分に増やすことができる。それにより、本実施の形態の主題推定システムは、対話の主題をより高精度に推定することができる。
[Effects]
As described above, the subject estimation system using the convolutional neural network 10 according to the present embodiment performs the learning process by identifying unsupervised learning data and assigning a correct answer label in a pseudo manner even when the learning data is not sufficient. By repeating it, supervised learning data can be increased sufficiently. Thereby, the theme estimation system of the present embodiment can estimate the theme of the dialog with higher accuracy.
ここで、本実施の形態の畳み込みニューラルネットワーク10を利用する主題推定システムが、上記のような学習処理を繰り返すことにより推定精度が向上することについて実験的検証結果を用いて説明する。 Here, the subject estimation system using the convolutional neural network 10 of the present embodiment will be described using experimental verification results to improve estimation accuracy by repeating the learning process as described above.
図12は、本実施の形態における主題推定システムの実験的検証結果を示すグラフである。図12には、DSTC4の対話コーパスを用いたときの、本実施の形態の主題推定システムが行う半教師あり学習処理の効果が示されている。 FIG. 12 is a graph showing experimental verification results of the subject estimation system in the present embodiment. FIG. 12 shows the effect of the semi-supervised learning process performed by the subject estimation system of the present embodiment when the DSTC4 dialogue corpus is used.
本実験では、対話文がExhibit主題に属する、属さないかの2クラス分類において、本実施の形態の主題推定システムが行う半教師あり学習処理により外部から取得した教師なしデータを教師データ(教師ありデータ)として元の教師ありデータに追加する。ここで、元の教師あり学習データ数は762、追加した教師なし学習データ数は20〜753である。 In this experiment, unsupervised data acquired from the outside by the semi-supervised learning process performed by the subject estimation system of the present embodiment in the two-class classification of whether the dialogue sentence belongs to the Exhibit theme or not belongs to the teacher data (supervised Data) to the original supervised data. Here, the original number of supervised learning data is 762, and the added number of unsupervised learning data is 20 to 753.
図12に示すように、外部から取得した教師なしデータに当該半教師あり学習処理を行い教師あり学習データとして追加することにより、2値分類精度が最大3%向上したことがわかる。 As shown in FIG. 12, it can be seen that the binary classification accuracy is improved by 3% at maximum by performing the semi-supervised learning process on the unsupervised data acquired from the outside and adding it as supervised learning data.
以上、実施の形態1および実施の形態2において本発明の主題推定システムおよび主題推定方法について説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサーなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。 As described above, the subject estimation system and the subject estimation method of the present invention have been described in the first embodiment and the second embodiment, but there is no particular limitation on the subject or apparatus in which each process is performed. It may be processed by a processor or the like (described below) embedded in a specific device located locally. Further, it may be processed by a cloud server or the like arranged at a location different from the local device.
なお、本発明は、さらに、以下のような場合も含まれる。 Note that the present invention further includes the following cases.
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。 (1) Specifically, the above apparatus is a computer system including a microprocessor, ROM, RAM, a hard disk unit, a display unit, a keyboard, a mouse, and the like. A computer program is stored in the RAM or hard disk unit. Each device achieves its functions by the microprocessor operating according to the computer program. Here, the computer program is configured by combining a plurality of instruction codes indicating instructions for the computer in order to achieve a predetermined function.
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。 (2) A part or all of the constituent elements constituting the above-described apparatus may be constituted by one system LSI (Large Scale Integration). The system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip, and specifically, a computer system including a microprocessor, ROM, RAM, and the like. . A computer program is stored in the RAM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。 (3) A part or all of the constituent elements constituting the above-described device may be constituted by an IC card that can be attached to and detached from each device or a single module. The IC card or the module is a computer system including a microprocessor, a ROM, a RAM, and the like. The IC card or the module may include the super multifunctional LSI described above. The IC card or the module achieves its function by the microprocessor operating according to the computer program. This IC card or this module may have tamper resistance.
(4)また、本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。 (4) Further, the present invention may be the method described above. Further, the present invention may be a computer program that realizes these methods by a computer, or may be a digital signal composed of the computer program.
(5)また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。 (5) In addition, the present invention provides a computer-readable recording medium such as a flexible disk, hard disk, CD-ROM, MO, DVD, DVD-ROM, DVD-RAM, BD ( It may be recorded on a Blu-ray (registered trademark) Disc), a semiconductor memory, or the like. The digital signal may be recorded on these recording media.
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。 In the present invention, the computer program or the digital signal may be transmitted via an electric communication line, a wireless or wired communication line, a network represented by the Internet, a data broadcast, or the like.
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。 The present invention may be a computer system including a microprocessor and a memory, wherein the memory stores the computer program, and the microprocessor operates according to the computer program.
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。 In addition, the program or the digital signal is recorded on the recording medium and transferred, or the program or the digital signal is transferred via the network or the like and executed by another independent computer system. You may do that.
本発明は、人間と機械とを問わず、二者間を基本とする自然言語のやりとりである対話の主題が何かを推定するというタスクを行う主題推定システムおよび主題推定方法に利用できる。 INDUSTRIAL APPLICABILITY The present invention can be used for a subject estimation system and a subject estimation method that perform a task of estimating what a conversation subject is, which is a natural language exchange between two people, regardless of a human or a machine.
10、80 畳み込みニューラルネットワーク
11、81 入力特徴
11a、11b 単語列ベクトル列
12、82 畳み込み層
12a、12b トピック依存畳み込み層
12z トピック非依存畳み込み層
13、13a、13b、83 プーリング層
14、14a、14b、84 全結合層
50 入力情報
51、61 単語列情報
52、62 トピック情報
60 学習データ
63 主題情報
110 入力部
111 単語ベクトル列制御部
121 トピック依存畳み込み層計算部
122、124、142 格納部
123 トピック非依存畳み込み層計算部
131 プーリング層計算部
141 全結合層計算部
150 出力部
160 エラー判定部
161 重み更新部
170 外部データ取得部
1001 CPU
1002 メモリ
1003 外部記憶装置
1004 ネットワークインターフェイス
1005 インターネット
10, 80 Convolutional
1002
Claims (12)
前記畳み込みニューラルネットワークは、
対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行う1以上のトピック依存畳み込み層と、当該トピックに依存しない畳み込み演算を行う1つのトピック非依存畳み込み層とで構成される畳み込み層と、
前記畳み込み層の出力に対してプーリング処理を行うプーリング層と、
前記プーリング層の出力に対して全結合処理を行う全結合層とを備える、
主題推定システム。 A subject estimation system for estimating a subject label of a dialog, comprising a convolutional neural network,
The convolutional neural network is:
One or more topic-dependent convolutional layers that perform topic-dependent convolution operations on an input of a word string vector sequence corresponding to the dialog text that transcribes the conversation, and one topic non-conformation that performs convolution operations that do not depend on the topic A convolution layer composed of a dependent convolution layer;
A pooling layer that performs a pooling process on the output of the convolution layer;
A total coupling layer that performs a total coupling process on the output of the pooling layer,
Thematic estimation system.
請求項1に記載の主題推定システム。 The convolutional neural network estimates the subject label of the dialog for the input by solving the input as a two-class classification problem;
The subject estimation system according to claim 1.
請求項1に記載の主題推定システム。 In the convolutional neural network, a dialogue text for learning that transcribes a dialogue, the time-series text of the dialogue is divided in advance into segments for each topic, and a label for a topic corresponding to each divided segment is obtained in advance. The first weight is used to cause each of the one or more topic-dependent convolutional layers to perform a convolution operation depending on the dependent topic for each dependent topic that is a dependent topic, using the given learning dialogue text as learning data. And learning a second weight so that the topic-independent convolution layer performs a convolution operation that does not depend on the dependent topic.
The subject estimation system according to claim 1.
前記トピック非依存畳み込み層は、前記学習用対話テキストに対応する単語列ベクトル列が入力されることにより、前記依存トピックに依存しない畳み込み演算を行うよう前記第2重みを学習する、
請求項3に記載の主題推定システム。 Each of the one or more topic-dependent convolutional layers receives a word string vector string related to the dependent topic from among word string vector strings corresponding to the learning dialogue text, thereby performing a convolution operation depending on the dependent topic. Learning the first weight to perform
The topic-independent convolution layer learns the second weight so as to perform a convolution operation independent of the dependent topic by inputting a word string vector sequence corresponding to the learning dialogue text.
The subject estimation system according to claim 3.
対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行うトピック依存畳み込み処理ステップと、
前記入力に対して、前記トピックに依存しない畳み込み演算を行うトピック非依存畳み込み処理ステップと、
前記トピック依存畳み込み処理ステップの出力とトピック非依存畳み込み処理ステップの出力とに対してプーリング処理を行うプーリング処理ステップと、
前記プーリング処理ステップの出力に対して全結合処理を行う全結合処理ステップとを含む、
主題推定方法。 A subject estimation method for a subject estimation system, comprising a convolutional neural network, for estimating a subject label of a dialogue, comprising:
A topic-dependent convolution processing step for performing a topic-dependent convolution operation on an input of a word string vector sequence corresponding to the dialog text that transcribes the dialog;
A topic-independent convolution processing step for performing a topic-independent convolution operation on the input;
A pooling processing step for performing a pooling process on the output of the topic-dependent convolution processing step and the output of the topic-independent convolution processing step;
A full join process step for performing a full join process on the output of the pooling process step,
Thematic estimation method.
前記トピック非依存畳み込み処理ステップでは、前記単語列ベクトル列と、前記依存トピック以外のトピックを示す単語で発火する第2重み(Z)との畳み込み演算を行い、
前記プーリング処理ステップでは、前記トピック依存畳み込み処理ステップの出力と前記トピック非依存畳み込み処理ステップの出力とから時間方向の最大値を取り出す演算を行い、
全結合処理ステップでは、前記プーリング処理ステップの出力に対して、結合重みを用いた重み付き加算を行った後に、確率分布化を行うことで全結合処理を行う、
請求項5に記載の主題推定方法。 In the topic-dependent convolution processing step, a convolution operation is performed between the word string vector sequence and a first weight (A) that fires at a specific word indicating a dependent topic that is a dependent topic,
In the topic-independent convolution process step, a convolution operation is performed between the word string vector sequence and a second weight (Z) that fires at a word indicating a topic other than the dependent topic,
In the pooling processing step, an operation for extracting a maximum value in the time direction from the output of the topic-dependent convolution processing step and the output of the topic-independent convolution processing step is performed,
In the total connection processing step, after performing weighted addition using the connection weight on the output of the pooling processing step, the total connection processing is performed by performing probability distribution.
The subject estimation method according to claim 5.
請求項6に記載の主題推定方法。 An output step of estimating and outputting a subject label of the dialogue by comparing a probability distribution of an output of the pooling processing step with a threshold value,
The subject estimation method according to claim 6.
前記入力ステップは、
さらに、対話を書き起こした対話テキストであって前記対話が時系列にテキスト化された対話テキストを受理する受理ステップと、
前記対話テキストに含まれる単語列の各単語のベクトルを所定の方法により計算して単語列ベクトル列を得るベクトル化ステップとを含む、
請求項5〜7のいずれか1項に記載の主題推定方法。 An input step of inputting a word string vector sequence corresponding to the dialogue text;
The input step includes
Further, an accepting step of accepting a dialog text that transcribes the dialog, wherein the dialog is converted into text in time series, and
A vectorization step of obtaining a word string vector sequence by calculating a vector of each word of the word sequence included in the dialogue text by a predetermined method,
The subject estimation method according to claim 5.
前記畳み込みニューラルネットワークに、対話を書き起こした学習用対話テキストであって前記対話の時系列のテキストがトピックごとのセグメントに予め分割され、かつ、分割されたセグメントごとに対応するトピックのラベルが予め付与された学習用対話テキストを、学習データとして用いて、前記トピック依存畳み込み処理ステップが依存するトピックである依存トピックに依存する畳み込み演算を行うよう前記第1重みを学習させる第1ステップと、
前記学習用対話テキストを用いて、前記トピック非依存畳み込み処理ステップが当該依存トピックに依存しない畳み込み演算を行うよう前記第2重みを学習させる第2ステップとを含む、
請求項6〜8のいずれか1項に記載の主題推定方法。 further,
In the convolutional neural network, learning dialogue text in which dialogue is transcribed, the time-series text of the dialogue is divided in advance into segments for each topic, and a label for a topic corresponding to each divided segment is preliminarily obtained. A first step of learning the first weight so as to perform a convolution operation depending on a dependent topic that is a topic on which the topic-dependent convolution processing step depends, using the given learning dialogue text as learning data;
Using the learning dialogue text, the topic-independent convolution processing step includes a second step of learning the second weight so as to perform a convolution operation independent of the dependent topic.
The subject estimation method according to claim 6.
前記第2ステップでは、前記学習用対話テキストに対応する単語列ベクトル列のうち前記依存トピック以外のトピックに関連する単語列ベクトル列を用いて前記第2重みを学習させる、
請求項9に記載の主題推定方法。 In the first step, the first weight is learned using a word string vector string related to the dependent topic among word string vector strings corresponding to the learning dialogue text;
In the second step, the second weight is learned using a word string vector string related to a topic other than the dependent topic among word string vector strings corresponding to the learning dialogue text.
The subject estimation method according to claim 9.
前記学習用対話テキストに対応する単語列ベクトル列のうち第1依存トピックに関連する単語列ベクトル列の数が第2依存トピックに関連する単語列ベクトル列の数よりも少ない場合、Webを検索して得た前記第1依存トピックに関連する対話テキストを前記学習データの半教師データとして用いて、前記第1ステップおよび前記第2ステップを行う、
請求項9または10に記載の主題推定方法。 further,
When the number of word string vector sequences related to the first dependent topic is less than the number of word string vector sequences related to the second dependent topic among the word string vector sequences corresponding to the learning dialogue text, the Web is searched. Using the dialogue text related to the first dependent topic obtained as the semi-teacher data of the learning data, the first step and the second step are performed.
The subject estimation method according to claim 9 or 10.
対話を書き起こした対話テキストに対応する単語列ベクトル列の入力に対して、トピックに依存した畳み込み演算を行うトピック依存畳み込み処理ステップと、
前記入力に対して、トピックに依存しない畳み込み演算を行うトピック非依存畳み込み処理ステップと、
前記トピック依存畳み込み処理ステップの出力とトピック非依存畳み込み処理ステップの出力とに対してプーリング処理を行うプーリング処理ステップと、
前記プーリング処理ステップの出力に対して全結合処理を行う全結合処理ステップとを含む、
プログラム。 A computer readable program comprising a convolutional neural network for estimating a subject label for dialogue,
A topic-dependent convolution processing step for performing a topic-dependent convolution operation on an input of a word string vector sequence corresponding to the dialog text that transcribes the dialog;
A topic-independent convolution processing step for performing a topic-independent convolution operation on the input;
A pooling processing step for performing a pooling process on the output of the topic-dependent convolution processing step and the output of the topic-independent convolution processing step;
A full join process step for performing a full join process on the output of the pooling process step,
program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610685263.XA CN106548124B (en) | 2015-09-17 | 2016-08-18 | Theme estimation system and theme estimation method |
EP16187517.4A EP3144860A3 (en) | 2015-09-17 | 2016-09-07 | Subject estimation system for estimating subject of dialog |
US15/262,785 US9870768B2 (en) | 2015-09-17 | 2016-09-12 | Subject estimation system for estimating subject of dialog |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562219904P | 2015-09-17 | 2015-09-17 | |
US62/219,904 | 2015-09-17 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017059205A true JP2017059205A (en) | 2017-03-23 |
JP6611053B2 JP6611053B2 (en) | 2019-11-27 |
Family
ID=58390869
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016080684A Active JP6611053B2 (en) | 2015-09-17 | 2016-04-13 | Subject estimation system, subject estimation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6611053B2 (en) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107608953A (en) * | 2017-07-25 | 2018-01-19 | 同济大学 | A kind of term vector generation method based on random length context |
JP2018163586A (en) * | 2017-03-27 | 2018-10-18 | 富士通株式会社 | Learning program, learning method and learning device |
CN109145107A (en) * | 2018-09-27 | 2019-01-04 | 平安科技(深圳)有限公司 | Subject distillation method, apparatus, medium and equipment based on convolutional neural networks |
JP2019095862A (en) * | 2017-11-17 | 2019-06-20 | 株式会社東芝 | Arithmetic processing device |
JPWO2018083804A1 (en) * | 2016-11-07 | 2019-07-11 | 富士通株式会社 | Analysis program, information processing apparatus and analysis method |
JP2019133529A (en) * | 2018-02-01 | 2019-08-08 | ヤフー株式会社 | Learning apparatus, generation apparatus, learning method, generation method, learning program, generation program, and model |
KR102015218B1 (en) * | 2018-04-16 | 2019-10-21 | 한양대학교 산학협력단 | Method and apparatus for text classification using machine learning |
JP2020123331A (en) * | 2019-01-29 | 2020-08-13 | 株式会社リコー | Intention identification method, device, and computer readable storage medium |
WO2020225923A1 (en) * | 2019-05-09 | 2020-11-12 | 日本電信電話株式会社 | Analysis device, analysis method, and analysis program |
CN112166442A (en) * | 2018-06-04 | 2021-01-01 | 株式会社索思未来 | Operation method |
JP2021515269A (en) * | 2018-02-22 | 2021-06-17 | セールスフォース ドット コム インコーポレイティッド | Interactive state tracking using global local encoder |
KR20210084155A (en) * | 2019-12-27 | 2021-07-07 | 주식회사 투블럭에이아이 | Method for providing topic-specific chatbot service and device using the same |
US11531722B2 (en) | 2018-12-11 | 2022-12-20 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002519766A (en) * | 1998-06-23 | 2002-07-02 | マイクロソフト コーポレイション | Method and apparatus for text classification and building a text classifier |
JP2010002973A (en) * | 2008-06-18 | 2010-01-07 | Oki Electric Ind Co Ltd | Voice data subject estimation device, and call center using the same |
JP2017049684A (en) * | 2015-08-31 | 2017-03-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Method for learning classification model, computer system, and computer program |
-
2016
- 2016-04-13 JP JP2016080684A patent/JP6611053B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002519766A (en) * | 1998-06-23 | 2002-07-02 | マイクロソフト コーポレイション | Method and apparatus for text classification and building a text classifier |
JP2010002973A (en) * | 2008-06-18 | 2010-01-07 | Oki Electric Ind Co Ltd | Voice data subject estimation device, and call center using the same |
JP2017049684A (en) * | 2015-08-31 | 2017-03-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | Method for learning classification model, computer system, and computer program |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2018083804A1 (en) * | 2016-11-07 | 2019-07-11 | 富士通株式会社 | Analysis program, information processing apparatus and analysis method |
JP2018163586A (en) * | 2017-03-27 | 2018-10-18 | 富士通株式会社 | Learning program, learning method and learning device |
CN107608953B (en) * | 2017-07-25 | 2020-08-14 | 同济大学 | Word vector generation method based on indefinite-length context |
CN107608953A (en) * | 2017-07-25 | 2018-01-19 | 同济大学 | A kind of term vector generation method based on random length context |
JP2019095862A (en) * | 2017-11-17 | 2019-06-20 | 株式会社東芝 | Arithmetic processing device |
JP2019133529A (en) * | 2018-02-01 | 2019-08-08 | ヤフー株式会社 | Learning apparatus, generation apparatus, learning method, generation method, learning program, generation program, and model |
JP7109560B2 (en) | 2018-02-22 | 2022-07-29 | セールスフォース ドット コム インコーポレイティッド | Conversation state tracking using global-local encoders |
JP2021515269A (en) * | 2018-02-22 | 2021-06-17 | セールスフォース ドット コム インコーポレイティッド | Interactive state tracking using global local encoder |
KR102015218B1 (en) * | 2018-04-16 | 2019-10-21 | 한양대학교 산학협력단 | Method and apparatus for text classification using machine learning |
CN112166442B (en) * | 2018-06-04 | 2023-08-18 | 株式会社索思未来 | Arithmetic method |
CN112166442A (en) * | 2018-06-04 | 2021-01-01 | 株式会社索思未来 | Operation method |
CN109145107B (en) * | 2018-09-27 | 2023-07-25 | 平安科技(深圳)有限公司 | Theme extraction method, device, medium and equipment based on convolutional neural network |
CN109145107A (en) * | 2018-09-27 | 2019-01-04 | 平安科技(深圳)有限公司 | Subject distillation method, apparatus, medium and equipment based on convolutional neural networks |
US11531722B2 (en) | 2018-12-11 | 2022-12-20 | Samsung Electronics Co., Ltd. | Electronic device and control method therefor |
US11507854B2 (en) * | 2019-01-29 | 2022-11-22 | Ricoh Company, Ltd. | Method and apparatus for recognizing intention, and non-transitory computer-readable recording medium |
JP2020123331A (en) * | 2019-01-29 | 2020-08-13 | 株式会社リコー | Intention identification method, device, and computer readable storage medium |
JPWO2020225923A1 (en) * | 2019-05-09 | 2020-11-12 | ||
WO2020225923A1 (en) * | 2019-05-09 | 2020-11-12 | 日本電信電話株式会社 | Analysis device, analysis method, and analysis program |
JP7424373B2 (en) | 2019-05-09 | 2024-01-30 | 日本電信電話株式会社 | Analytical equipment, analytical methods and analytical programs |
KR102362717B1 (en) * | 2019-12-27 | 2022-02-15 | 주식회사 투블럭에이아이 | Method for providing topic-specific chatbot service and device using the same |
KR20210084155A (en) * | 2019-12-27 | 2021-07-07 | 주식회사 투블럭에이아이 | Method for providing topic-specific chatbot service and device using the same |
Also Published As
Publication number | Publication date |
---|---|
JP6611053B2 (en) | 2019-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6611053B2 (en) | Subject estimation system, subject estimation method and program | |
CN106548124B (en) | Theme estimation system and theme estimation method | |
CN112560496B (en) | Training method and device of semantic analysis model, electronic equipment and storage medium | |
CN105810193B (en) | Method and apparatus for training language model and method and apparatus for recognizing language | |
BR112019004524B1 (en) | NEURAL NETWORK SYSTEM, ONE OR MORE NON-TRAINER COMPUTER READABLE STORAGE MEDIA AND METHOD FOR AUTOREGRESSIVELY GENERATING AN AUDIO DATA OUTPUT SEQUENCE | |
CN108604311B (en) | Enhanced neural network with hierarchical external memory | |
US11720757B2 (en) | Example based entity extraction, slot filling and value recommendation | |
JP2019511033A5 (en) | ||
JP7342971B2 (en) | Dialogue processing device, learning device, dialogue processing method, learning method and program | |
CN110033382B (en) | Insurance service processing method, device and equipment | |
KR20200084260A (en) | Electronic apparatus and controlling method thereof | |
Shibata et al. | Chat-like conversational system based on selection of reply generating module with reinforcement learning | |
CN111241843B (en) | Semantic relation inference system and method based on composite neural network | |
CN113779190B (en) | Event causal relationship identification method, device, electronic equipment and storage medium | |
JP6429747B2 (en) | Information providing apparatus, information providing method, and information providing program | |
JP5766152B2 (en) | Language model generation apparatus, method and program | |
JP6370281B2 (en) | Information providing apparatus, information providing method, and information providing program | |
JP6605997B2 (en) | Learning device, learning method and program | |
JP6983729B2 (en) | Extractor, evaluation device, extraction method and extraction program | |
Kim et al. | The use of discriminative belief tracking in pomdp-based dialogue systems | |
JP2019079087A (en) | Learning device, program parameter and learning method | |
CN114416941A (en) | Generation method and device of dialogue knowledge point determination model fusing knowledge graph | |
JP7013329B2 (en) | Learning equipment, learning methods and learning programs | |
JP7044642B2 (en) | Evaluation device, evaluation method and evaluation program | |
Orozko et al. | Online learning of stochastic bi-automaton to model dialogues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191018 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6611053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |