JP7378103B2

JP7378103B2 - 自然語モデルに基づいた質問－応答ペア生成方法およびこのような方法を遂行する装置

Info

Publication number: JP7378103B2
Application number: JP2022087930A
Authority: JP
Inventors: ユンリチョン; ヨンキムヒョン
Original assignee: ボインアイティーカンパニーリミテッド
Priority date: 2021-08-11
Filing date: 2022-05-30
Publication date: 2023-11-13
Anticipated expiration: 2042-05-30
Also published as: KR102410068B9; KR102410068B1; JP2023026316A

Description

本発明は、自然語モデルに基づいた質問－応答ペア生成方法およびこのような方法を遂行する装置に関する。具体的には、原文に対する分析に基づいて質問－応答ペアを生成して質問－応答ペアデータ構築のための自然語モデルに基づいた質問－応答ペア生成方法およびこのような方法を遂行する装置に関する。

最近人間の理解に基づいて人間親和的なサービスを提供するための知能型システムの発展が着実になされている。このような人工知能システムの核心技術は、使用者が容易に望む知識を対話を通じて提供されたり、言語の制限なく多様な情報を獲得し意思疎通ができる言語知能技術である。

また、言語知能のための核心技術として質問応答技術と自動通訳技術が常用化されるのであれば、多様な言語で作られた多様な情報を韓国語で検索して情報を獲得でき、他の言語を使う人々とも自由に疎通することができる。

特に、自然語質問応答技術は使用者の自然語質問に合う正解の候補を抽出してその中の最適の正解を提示する技術であり、多様な人工知能応用システムで言語知能核心モジュールとして活用が可能な技術である。

このような自然語質問応答技術のためには質問－応答ペアの生成が必要であり、テキストに基づいて質問－応答ペアを自動で生成するための方法に対する研究が必要である。

本発明は前述した問題点をすべて解決することをその目的とする。

また、本発明は、入力された原文上でコンテクストを決定し、コンテクストに基づいて質問－応答ペアを生成して質問－応答ペアデータを構築することを目的とする。

また、本発明は、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問－応答ペアの品質を向上させることができる。

前記目的を達成するための本発明の代表的な構成は次の通りである。

本発明の一実施例によると、自然語モデルに基づいた質問－応答ペア生成方法は、文書転換部が原文上でテキストを抽出する段階、コンテクスト分離部が前記テキストでコンテクストを決定する段階と質問－応答ペア生成部が前記コンテクストで候補質問－応答ペアを生成する段階を含むことができる。

一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）、ＥＬＥＣＴＲＡ、ＧＰＴ－２等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。

また、質問－応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問－応答ペアを生成し、

ウォーカー部は前記候補質問－応答ペアに対して追加的な判断を通じて最終的に質問－応答ペアを決定することができる。

本発明の他の実施例によると、自然語モデルに基づいた質問－応答ペア生成器は、原文上でテキストを抽出するように具現される文書転換部、前記テキストでコンテクストを決定するように具現されるコンテクスト分離部と前記コンテクストで候補質問－応答ペアを生成するように具現される質問－応答ペア生成部を含むことができる。

一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はＢＥＲＴ、ＥＬＥＣＴＲＡ、ＧＰＴ－２等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。

また、質問－応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問－応答ペアを生成し、ウォーカー部は前記候補質問－応答ペアに対して追加的な判断を通じて最終的に質問－応答ペアを決定することができる。

本発明によると、入力された原文上でコンテクストが決定され、コンテクストに基づいて質問－応答ペアを生成して質問－応答ペアデータが構築され得る。

また、本発明によると、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問－応答ペアの品質が向上し得る。

図１は、本発明の実施例に係る質問－応答ペア生成器を示した概念図である。図２は、本発明の実施例に係る質問－応答ペア生成器の動作を示した概念図である。図３は、本発明の実施例に係る質問－応答ペア生成プロセスを示した概念図である。図４は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。図５は、本発明の実施例に係る質問－応答ペアを生成するための方法を示した概念図である。図６は、本発明の実施例に係る質問－応答ペアの生成方法を示した概念図である。図７は、本発明の実施例に係る質問－応答ペアで質問を生成する方法を示した概念図である。図８は、本発明の実施例に係るセンテンス（または文章）に基づいてコンテクストを決定する方法を示した概念図である。

後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として図示する添付図面を参照する。このような実施例は、当業者が本発明を充分に実施できるように詳細に説明される。本発明の多様な実施例は互いに異なるが相互排他的である必要はないということが理解されるべきである。例えば、本明細書に記載されている特定形状、構造および特性は、本発明の精神と範囲を逸脱することなく一実施例から他の実施例に変更されて具現され得る。また、それぞれの実施例内の個別構成要素の位置または配置も、本発明の精神と範囲を逸脱することなく変更され得ることが理解されるべきである。したがって、後述する詳細な説明は限定的な意味として行われるものではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等なすべての範囲を包括するものと受け入れられるべきである。図面で類似する参照符号は多様な側面にわたって同一または類似する構成要素を示す。

以下では、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の多様な好ましい実施例に関して添付された図面を参照して詳細に説明することにする。

図１は、本発明の実施例に係る質問－応答ペア生成器を示した概念図である。

図１では、入力された原文に基づいて質問－応答ペアを生成するために具現された質問－応答ペア生成器が開示される。

図１を参照すると、質問－応答ペア生成器は原文入力部１００、ウェブアプリケーション（ＷｅｂＡｐｐ）１１０、データベース（ｄａｔａｂａｓｅ）１２０、ストレージ（ｓｔｏｒａｇｅ）１３０、マネジャー部１４０、ウォーカー部１５０、文書転換部（ｄｏｃｕｍｅｎｔｃｏｎｖｅｒｔｅｒ）１６０、コンテクスト分離部（ｃｏｎｔｅｘｔｓｐｌｉｔｔｅｒ）１７０、質問－応答ペア生成部１８０、ノーティファイア（ｎｏｔｉｆｉｅｒ）１９０を含むことができる。

原文入力部１００は、質問－応答ペアを生成するための原文の入力のために具現され得る。原文はＥＰＵＢ、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ、ＴＥＸＴ、ＳＱｕＡＤ（ＳｔａｎｆｏｒｄＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＤａｔａｓｅｔ）１．０／２．０、ＫｏｒＳＱｕＡＤ（ＴｈｅＫｏｒｅａｎＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＤａｔａｓｅｔ）１．０／２．０のようなフォーマットを有することができる。

ウェブアプリケーション１１０は，質問－応答ペアを生成するための多様な命令を伝達するために具現され得る。具体的には、ウェブアプリケーション１１０は原文をデータベース１２０、ストレージ１３０に保存し、マネジャー部１４０に質問－応答ペアを生成するための原文を伝達することができる。また、ウェブアプリケーション１１０は学習データを受信し、受信された学習データに対するアラームを伝達するために具現され得る。

データベース（ｄａｔａｂａｓｅ）１２０は、原文情報および／または学習データに対する保存のために具現され得る。

ストレージ（ｓｔｏｒａｇｅ）１３０は、原文情報および／または学習データに対する保存のために具現され得る。

マネジャー部１４０は原文データを受信し、質問－応答ペアを生成するための手続きの制御および管理を遂行できる。

ウォーカー部１５０はマネジャー部から作業が割当され、生成された質問－応答ペアに対する評価を遂行できる。ウォーカー部１００は、学習データをウェブアプリケーション１１０を通じてデータベース１２０および／またはストレージ１３０に伝送することができる。ウォーカー部１５０は抽出した段落と生成された質問－応答ペアを結果（ＪＳＯＮフォーマット）として出力して伝達することができる。

文書転換部（ｄｏｃｕｍｅｎｔｃｏｎｖｅｒｔｅｒ）１６０は、原文でテキストを抽出するために具現され得る。

コンテクスト分離部（ｃｏｎｔｅｘｔｓｐｌｉｔｔｅｒ）１７０は、抽出されたテキストでコンテクストを分離するために具現され得る。コンテクスト分離部１７０は分離された文章同士の連関性推論を通じて内容がつながる段落が生成され得る。

質問－応答ペア生成部１８０は、分離されたコンテクストに基づいて候補質問－応答ペアを生成するために具現され得る。質問－応答ペア生成部１８０は解を生成し、解による質問をコンテクスト基盤で機械読解を通じて決定して候補質問－応答ペアを生成することができる。

質問－応答ペア生成部１８０により生成された候補質問－応答ペアはウォーカー部１５０に伝達され、ウォーカー部１５０は候補質問－応答ペアのうちエラーを判断して最終的に質問－応答ペアを生成することができる。ウォーカー部１５０は決定された質問－応答ペアを学習データとしてウェブアプリケーション１１０を通じて伝達することができる。学習データとして伝達された質問－応答ペアは後ほど質問－応答ペアを決定するための学習データとして使われ得る。また、質問－応答ペアは原文に対する質問－応答ペアデータ構築のために使われ得る。

ノーティファイア（ｎｏｔｉｆｉｅｒ）１９０は、ウォーカー部１５０から学習データの伝達の有無に対するアラームを提供するために具現され得る。

本発明ではＥＰＵＢ、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＸＭＬ、ＴＥＸＴ、ＳＱｕＡＤ（ＳｔａｎｆｏｒｄＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＤａｔａｓｅｔ）１．０／２．０、ＫｏｒＳＱｕＡＤ（ＴｈｅＫｏｒｅａｎＱｕｅｓｔｉｏｎＡｎｓｗｅｒｉｎｇＤａｔａｓｅｔ）１．０／２．０等のファイル原本入力時、自動で段落抽出および質問－応答ペアが生成され提案されて、人がする手作業が最小化し、結果として良質の質問－応答ペアデータが構築され得る。

生成された質問－応答ペアデータは、再びフィードバックされてより正確な質問－応答ペアの生成に活用され得る。また、生成された質問－応答ペアデータは後ほど使用者の質問に対する解を提供するための学習データとして活用されて、質問に対する解を提供するエンジンを実現するために活用され得る。

具体的には、段落と段落に関連した質問－正解ペアが生成され、質問－応答ペアデータ構築がなされ得る。例えば、政策資料に対するデータが構築され、これを再学習すれば政策資料に対する質問－応答ペアが生成されて政策に対する返答を提供できるモデルが学習され得る。構築されたデータ（質問－応答）に対する再学習が遂行される場合、質問生成および機械読解モデル性能が向上し得る。質問生成および正解検索の性能が上がることによって今後データセットの構築が円滑となり得る。

図２は、本発明の実施例に係る質問－応答ペア生成器の動作を示した概念図である。

図２では、質問－応答ペア生成器が質問－応答ペアを生成して学習のための学習データを生成するための方法が開示される。

図２を参照すると、原文入力部が原文を受信して原文をウェブアプリケーションに伝送する（段階Ｓ２００）。

ウェブアプリケーションは受信した原文をデータベースとストレージに保存することができる（段階Ｓ２０５）。

ウェブアプリケーションは、受信した原文に基づいてマネジャー部に学習データ自動構築を要請することができる（段階Ｓ２１０）。

学習データは原文基盤で生成された質問－応答ペアであり得る。

マネジャー部はウォーカー部に作業割当を遂行できる（段階Ｓ２１５）。

ウォーカー部は文書転換部にテキスト抽出を要請することができる（段階Ｓ２２０）。

文書転換部は原文でテキストを抽出することができる。

コンテクスト分離部は、抽出されたテキストを対象にコンテクストを分離することができる（段階Ｓ２２５）。

質問－応答ペア生成部は分離されたコンテクストに基づいて候補質問－応答ペアを生成し、生成された候補質問－応答ペアをウォーカー部に伝送することができる（段階Ｓ２３０）。

ウォーカー部は受信した候補質問－応答ペアを検討して最終的に質問－応答ペアを決定した後、最終的に決定された質問－応答ペアをＪＳＯＮ形態の学習データとしてウェブアプリケーションに伝送することができる（段階Ｓ２３５）。

ウェブアプリケーションは受信した学習データをデータベースおよびストレージに保存することができる（段階Ｓ２４０）。

ウェブアプリケーションは学習データの受信をノーティファイアに知らせることができる（段階Ｓ２４５）。

ノーティファイアは管理者装置に学習データの受信を知らせることができる（段階Ｓ２５０）。

管理者の学習データ要請時、下記のような段階で学習データが管理者に伝達され得る。

まず、管理者装置はウェブアプリケーションに学習データを要請することができる（段階Ｓ２５５）。

ウェブアプリケーションはストレージに学習データを要請することができる（段階Ｓ２６０）。

ストレージは管理者装置に学習データを伝達することができる（段階Ｓ２６５）。

図３は、本発明の実施例に係る質問－応答ペア生成プロセスを示した概念図である。

図３では、ＥＰＵＢ、ＨＴＭＬ、ＸＭＬ、ＴＥＸＴ、ＳＱｕＡＤ１．０／２．０、ＫｏｒＳＱｕＡＤ１．０／２．０フォーマットの原文を受信し、これらフォーマットの原文に基づいて質問－応答ペアを生成する方法が開示される。

図３を参照すると、原文（例えば、ＥＰＵＢフォーマットの原文）３００が入力され得る。

入力された原文３００は、テキストパーシングに基づいてテキストを抽出してテキスト情報を含んだＳＱｕＡＤ１．０／２．０、ＫｏｒＳＱｕＡＤ１．０／２．０、ＥＸＣＥＬフォーマット３１０で生成され得る。前述した通り、テキストを抽出してテキスト情報を含んだドキュメントフォーマット３１０への生成は文書転換部で遂行され得る。

テキストを含むドキュメント３１０は文章分離を通じてセンテンス（ｓｅｎｔｅｎｃｅ）３２０単位で分離することができ、センテンス３２０は段落抽出を通じてコンテクスト３３０に決定され得る。前述した通り、コンテクスト分離部で前記のようなコンテクスト決定動作が遂行され得る。

コンテクスト３３０に基づいて質問－応答ペア３４０、３５０が生成され、生成された質問－応答ペア３４０、３５０はＪＳＯＮフォーマット３６０で保存され得る。前述した通り、質問応答生成部は質問－応答ペア３４０、３５０を生成し、生成された質問－応答ペア３４０、３５０はＪＳＯＮフォーマット３６０で保存され得る。

図４は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。

図４では、テキストでコンテクストを抽出するための方法が開示される。

図４を参照すると、コンテクストを抽出するための１段階４１０では自然語推論（ＮＬＩ、ＮａｔｕｒａｌＬａｎｇｕａｇｅＩｎｆｅｒｅｎｃｅ）、文章類似度測定（ＳｅｍａｎｔｉｃＴｅｘｔｕａｌＳｉｍｉｌａｒｉｔｙ）を通じて文章類似度が測定され得る。

自然語推論（ＮＬＩ、ＮａｔｕｒａｌＬａｎｇｕａｇｅＩｎｆｅｒｅｎｃｅ）と文章類似度測定（ＳＴＳ、（ＳｅｍａｎｔｉｃＴｅｘｔｕａｌＳｉｍｉｌａｒｉｔｙ）はテキスト内の文章間の関係を決定するために使われ得る。

自然語推論は、前提として与えられたテキストと仮設として与えられたテキスト間の関係を推論することである。前提と仮設間の関係は仮説が真である場合（ｅｎｔａｉｌｍｅｎｔ）、仮説が偽りである場合（ｃｏｎｔｒａｄｉｃｔｉｏｎ）、仮説が真であってもよく偽りであってもよい場合（ｎｅｕｔｒａｌ）にラベリングされて自然語推論が遂行され得る。

文章類似度は入力で与えられた二つの文章間の意味の同等性を数値で表現するものである。文章類似度はＦ１ｓｃｏｒｅとピアソン相関係数に基づいて決定され得る。

前記のように１段階４１０の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、２段階４２０でＢＥＲＴ、ＥＬＥＣＴＲＡ、ＧＰＴ－２等のディープラーニングモデルを通じてキーワードを抽出して文章類似度を測定することができる。

２段階４２０では、１段階４１０基盤で獲得された文章関係に基づいて最大限多くのコンテクストが生成され得る。

１段階４１０では単純に一つの文章と次の文章間の連関性のみを推論することによって段落が細かく分けられて抽出され、捨てる文章が多くなる。２段階４２０では文章と文章の間での連関性が落ちるように見えても、脈絡を考慮する方法である。つながる内容内では関連がある内容同士を束ねてより大きい単位の段落を作り出すことができる。

図５は、本発明の実施例に係る質問－応答ペアを生成するための方法を示した概念図である。

図５では、コンテクスト分離部がコンテクストでセンテンス（または文章）を分離し、質問－応答ペアを生成する方法が開示される。

図５を参照すると、決定されたコンテクスト５００でセンテンス５１０が分離され、分離されたセンテンス５１０に基づいて質問５３０－解５２０ペアが生成され得る。

まず、文章５１０に基づいて解５２０が先に決定され得る。解５２０が決定された後、解５２０および解５２０と関連したコンテクスト５２５に基づいて候補質問５３０が生成され得る。

候補質問５３０およびコンテクスト５４０に対する機械読解を通じて候補質問－応答ペアが決定され得る

決定された候補質問－応答ペアはウォーカーサーバーに再び伝達され、ウォーカーサーバーは最終的に候補質問－応答ペアのうち最終的に学習データとして使われる質問－応答ペアを決定することができる。

図６は、本発明の実施例に係る質問－応答ペアの生成方法を示した概念図である。

図６では、質問－応答ペアのうち解を決定するための方法が開示される。

図６を参照すると、コンテクストを構成するセンテンス上で解を決定するためにコンテクストに対する分析が遂行され得る。

まず、コンテクストに含まれる単語のうち解に設定可能な品詞に対応する１次候補解６１０が抽出され得る。

例えば、名詞が解に設定可能な品詞である場合、コンテクスト上で名詞に該当する単語が１次候補解６１０として抽出され得る。以下、説明の便宜上解に設定可能な品詞は名詞と仮定して説明する。

１次候補解６１０の抽出後、１次候補解６１０の分布頻度が判断され得る。

例えば、１次候補解６１０が１０個であって、１次候補解１～１次候補解１０である場合、１次候補解１～１次候補解１０それぞれのコンテクスト内分布頻度が決定され得る。

１次候補解１～１次候補解１０の分布頻度のうち、第１臨界分布頻度以下、第２臨界分布頻度以上の１次候補解６１０は除外され、２次候補解６２０が決定され得る。

第１臨界分布頻度以下である場合、解として使うには重要度が低すぎるため解として使われる価値が低いこともあり、第２臨界分布頻度以上の場合、解として使うには一般的な単語であるか、該当解に対する質問難易度が低すぎるため解として使われる価値が低いこともあるためである。

２次候補解６２０の決定後、２次候補解６２０のコンテクスト上の位置を考慮して解として設定される優先順位が決定され得る。２次候補解６２０が５個であって、２次候補解１～２次候補解５である場合、２次候補解１～２次候補解５それぞれのコンテクスト上の位置が決定され得る。２次候補解１～２次候補解５のうち、解として設定され得る優先順位が決定され得る。

コンテクスト上の位置は、コンテクストを構成するセンテンスのうち２次候補解６２０を含むセンテンスの位置を考慮して決定され得る。２次候補解６２０を含むセンテンスはターゲットセンテンスという用語で表現され得る。

コンテクスト内のターゲットセンテンス分布が相対的に広いほど２次候補解６２０の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンス分布は、全体センテンスのうちターゲットセンテンス間の距離を基準として判断され得る。例えば、２０個のセンテンスを含むコンテクストでセンテンスは座標化｛（１、０）～（２０、０）｝とされ得る。座標の分布を計算する方式で座標上でターゲットセンテンス分布が算出され得る。

または、コンテクスト内のターゲットセンテンス集中度が相対的に大きいほど２次候補解６２０の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンスの集中度はコンテクストの特定位置にターゲットセンテンスが集中的に位置するかに対する値であって、ターゲットセンテンスの個数、ターゲットセンテンスの座標化後の座標間距離を基準として算出され得る。

コンテクストの性格、質問の性格（学習度確認、情報提供）により、互いに異なる要素（ターゲットセンテンス分布がターゲットセンテンスの集中度）を基準として２次候補解６２０の優先順位が決定され得る。

コンテクスト別に生成されなければならない質問－応答ペアの個数を考慮して優先順位の順で臨界個数の２次候補解が決定され、臨界個数の２次候補解６２０が最終的に解として決定されて質問－応答ペアが生成され得る。

本発明の実施例によると、質問に対する難易度によって２次候補解６２０の優先順位は逆に異なって設定され得る。質問に対する難易度が相対的に高くなるほど相対的に低い臨界分布を有し、ターゲットセンテンス分布が相対的に低い２次候補解６２０を基準として質問が生成され得る。その反対に、質問に対する難易度が相対的に低くなるほど相対的に高い臨界分布を有し、ターゲットセンテンス分布が相対的に高い２次候補解６２０を基準として質問が生成され得る。

図７は、本発明の実施例に係る質問－応答ペアで質問を生成する方法を示した概念図である。

図７では、解を決定した後、解に対応する質問を生成するための方法が開示される。

図７を参照すると、解に対する質問を決定するために解として設定された２次候補解を含む少なくとも一つのターゲットセンテンス７００が分析され得る。

ターゲットセンテンス７００は質問として生成が容易な優先順位を基準として質問ターゲットセンテンス７５０として設定され得る。例えば、ターゲットセンテンス７００が５個である場合、ターゲットセンテンス１～ターゲットセンテンス５は質問ターゲットセンテンス１～質問ターゲットセンテンス５に優先順位が設定され得る。

質問ターゲットセンテンス７５０の優先順位は、ターゲットセンテンス７００のうち長さが相対的に長いほど相対的に高い優先順位を有し、ターゲットセンテンス７００で含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高い優先順位を有するように設定され得る。その反対に、質問ターゲットセンテンス７５０の優先順位はターゲットセンテンス７００のうち長さが相対的に短いほど相対的に低い優先順位を有し、ターゲットセンテンス７００で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。

このような方法で、質問ターゲットセンテンス７５０のうち最も優先順位が高い質問ターゲットセンテンスを基準として質問を生成して質問－応答ペアを生成することができる。

本発明の実施例によると、優先順位は難易度により適応的に調整され得る。前述した優先順位は難易度が最も低いものを考慮して設定されたものであり、反対に難易度が高く設定されるようにしたい場合、反対に質問ターゲットセンテンス７５０の優先順位はターゲットセンテンス７００のうち長さが相対的に短いほど相対的に高い優先順位を有し、ターゲットセンテンス７００で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。

図８は、本発明の実施例に係るセンテンス（または文章）に基づいてコンテクストを決定する方法を示した概念図である。

図８では、センテンスに基づいてコンテクストを決定する方法が開示される。

図８を参照すると、センテンス間の関係に基づいてコンテクストを決定するために、センテンス間の連関度に対する分析が遂行され得る。前述した通り、１段階の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、２段階でＴＦ－ＩＤＦを通じてキーワードを抽出して文章類似度を測定する方法が開示される。以下、２段階でＴＦ－ＩＤＦを通じてキーワードを抽出して文章類似度を測定してコンテクストを決定する方法が開示される。

一次的に、候補コンテクスト８４０を決定するために文章別キーワードに対する分析を通じてキーワード基準の１次コンテクスト化が遂行され得る。１次コンテクスト化は、全体テキストで第１臨界回数以上存在するキーワードである中心キーワード８００を決定し、中心キーワード８００を含む中心キーワードセンテンス８２０の集合を生成して遂行され得る。中心キーワード８００を含むセンテンスは中心キーワードセンテンス８２０という用語で表現される。中心キーワード８００を含まないセンテンスは非中心キーワードセンテンスという用語で表現される。中心キーワード８００は複数個であり得る。第１臨界回数は全体原文内の単語分布およびコンテクスト分割要求個数を考慮して決定され得る。全体原文内の単語分布に基づいて繰り返される単語の個数が相対的に多くないほど第１臨界回数は低く設定され得る。また、コンテクスト分割要求個数が相対的に多いほど第１臨界回数は高く設定され得る。

１次コンテクスト化を遂行時、同一の中心キーワード８００である第１中心キーワードを有する中心キーワードセンテンス１（第１中心キーワード）と中心キーワードセンテンス２（第１中心キーワード）の間に含まれた非中心キーワードセンテンスは中心キーワードセンテンス１（第１中心キーワード）と中心キーワードセンテンス２（第１中心キーワード）と同一の候補コンテクストに決定され得る。

また、中心キーワードセンテンス１（第１中心キーワード）と中心キーワードセンテンス２（第１中心キーワード）の間に他の中心キーワードである第２中心キーワードを含む中心キーワードセンテンス１（第２中心キーワード）が含まれる場合、第２中心キーワードを基準として新しい候補コンテクスト８４０に分離され得る。

前述した処理を通じて候補コンテクスト８４０が一次的に抽出された後、候補コンテクスト８４０の内部でコンテクスト中心キーワード８６０を決定して追加的なコンテクスト分割を遂行して最終的にコンテクストを決定することができる。具体的には、コンテクストはコンテクストの内部で第２臨界回数以上繰り返されるコンテクスト中心キーワード８６０を含むコンテクスト中心キーワードセンテンス８８０が臨界距離以下に位置した場合、候補コンテクスト８４０で分離されて設定され得る。

この時、追加的に候補コンテクスト８４０でコンテクスト中心キーワードセンテンス８６０を考慮してコンテクストを分離した場合、分離されたコンテクストによって候補コンテクストに残ったセンテンス間の中心キーワード連関度が追加的に分析され、もし、残ったセンテンス間の中心キーワード連関度が臨界値以下である場合、候補コンテクストが最終的にコンテクストに決定され得る。残ったセンテンス間の中心キーワード連関度は、残ったセンテンスが中心キーワードを含んでいるかどうかおよび全体センテンスのうち中心キーワードを含むセンテンスの比率に基づいて決定され得る

すなわち、コンテクストでコンテクスト中心キーワードセンテンス８８０を考慮してコンテクストを分離時、周辺に残った残りのコンテクストが中心キーワード８００と関連度が高くない場合、別途のコンテクスト中心キーワードセンテンス８８０基盤の分離なしに一つのコンテクストに設定することができる。

以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で具現されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知となっている使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、ＣＤ－ＲＯＭおよびＤＶＤのような光記録媒体、フロプティカルディスク（ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気－光媒体（ｍａｇｎｅｔｏ－ｏｐｔｉｃａｌｍｅｄｉｕｍ）、およびＲＯＭ、ＲＡＭ、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使ってコンピュータによって実行され得る高級言語コードも含まれる。ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールに変更され得、その逆も同一である。

以上、本発明が具体的な構成要素などのような特定事項と限定された実施例および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は前記実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、このような記載から多様な修正と変更を試みることができる。

したがって、本発明の思想は前記説明された実施例に限定されて定められてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等なまたはこれから等価的に変更されたすべての範囲は本発明の思想の範疇に属するものと言える。

Claims

自然語モデルに基づいた質問－応答ペア生成方法は、
文書転換部が原文上でテキストを抽出する段階、
コンテクスト分離部が前記テキストでコンテクストを決定する段階、および
質問－応答ペア生成部が前記コンテクストで候補質問－応答ペアを生成する段階を含み、
質問－応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問－応答ペアを生成し、
ウォーカー部は前記候補質問－応答ペアに対して追加的な判断を通じて最終的に質問－応答ペアを決定し、
前記質問－応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する１次候補解が抽出され、前記１次候補解の抽出後、前記１次候補解の分布頻度に基づいて２次候補解が決定され、前記２次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記２次候補解を含むセンテンスの位置を考慮して決定され、
前記２次候補解の優先順位は、前記コンテクスト内の前記２次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
ことを特徴とする、方法。
前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項１に記載の方法。
前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項２に記載の方法。
自然語モデルに基づいた質問－応答ペア生成器は、
原文上でテキストを抽出するように具現される文書転換部、
前記テキストでコンテクストを決定するように具現されるコンテクスト分離部、および
前記コンテクストで候補質問－応答ペアを生成するように具現される質問－応答ペア生成部を含み、
質問－応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問－応答ペアを生成し、
ウォーカー部は前記候補質問－応答ペアに対して追加的な判断を通じて最終的に質問－応答ペアを決定し、
前記質問－応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する１次候補解が抽出され、前記１次候補解の抽出後、前記１次候補解の分布頻度に基づいて２次候補解が決定され、前記２次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記２次候補解を含むセンテンスの位置を考慮して決定され、
前記２次候補解の優先順位は、前記コンテクスト内の前記２次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
ことを特徴とする、質問－応答ペア生成器。
前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項４に記載の質問－応答ペア生成器。
前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項５に記載の質問－応答ペア生成器。