JP7378103B2 - 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置 - Google Patents

自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置 Download PDF

Info

Publication number
JP7378103B2
JP7378103B2 JP2022087930A JP2022087930A JP7378103B2 JP 7378103 B2 JP7378103 B2 JP 7378103B2 JP 2022087930 A JP2022087930 A JP 2022087930A JP 2022087930 A JP2022087930 A JP 2022087930A JP 7378103 B2 JP7378103 B2 JP 7378103B2
Authority
JP
Japan
Prior art keywords
question
context
solution
sentences
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022087930A
Other languages
English (en)
Other versions
JP2023026316A (ja
Inventor
ユン リ チョン
ヨン キム ヒョン
Original Assignee
ボイン アイティー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ボイン アイティー カンパニー リミテッド filed Critical ボイン アイティー カンパニー リミテッド
Publication of JP2023026316A publication Critical patent/JP2023026316A/ja
Application granted granted Critical
Publication of JP7378103B2 publication Critical patent/JP7378103B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)

Description

本発明は、自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置に関する。具体的には、原文に対する分析に基づいて質問-応答ペアを生成して質問-応答ペアデータ構築のための自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置に関する。
最近人間の理解に基づいて人間親和的なサービスを提供するための知能型システムの発展が着実になされている。このような人工知能システムの核心技術は、使用者が容易に望む知識を対話を通じて提供されたり、言語の制限なく多様な情報を獲得し意思疎通ができる言語知能技術である。
また、言語知能のための核心技術として質問応答技術と自動通訳技術が常用化されるのであれば、多様な言語で作られた多様な情報を韓国語で検索して情報を獲得でき、他の言語を使う人々とも自由に疎通することができる。
特に、自然語質問応答技術は使用者の自然語質問に合う正解の候補を抽出してその中の最適の正解を提示する技術であり、多様な人工知能応用システムで言語知能核心モジュールとして活用が可能な技術である。
このような自然語質問応答技術のためには質問-応答ペアの生成が必要であり、テキストに基づいて質問-応答ペアを自動で生成するための方法に対する研究が必要である。
本発明は前述した問題点をすべて解決することをその目的とする。
また、本発明は、入力された原文上でコンテクストを決定し、コンテクストに基づいて質問-応答ペアを生成して質問-応答ペアデータを構築することを目的とする。
また、本発明は、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問-応答ペアの品質を向上させることができる。
前記目的を達成するための本発明の代表的な構成は次の通りである。
本発明の一実施例によると、自然語モデルに基づいた質問-応答ペア生成方法は、文書転換部が原文上でテキストを抽出する段階、コンテクスト分離部が前記テキストでコンテクストを決定する段階と質問-応答ペア生成部が前記コンテクストで候補質問-応答ペアを生成する段階を含むことができる。
一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はBERT(Bidirectional Encoder Representations from Transformers)、ELECTRA、GPT-2等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。
また、質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問-応答ペアを生成し、
ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定することができる。
本発明の他の実施例によると、自然語モデルに基づいた質問-応答ペア生成器は、原文上でテキストを抽出するように具現される文書転換部、前記テキストでコンテクストを決定するように具現されるコンテクスト分離部と前記コンテクストで候補質問-応答ペアを生成するように具現される質問-応答ペア生成部を含むことができる。
一方、前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内文章間の関係を決定し、前記コンテクスト分離部はBERT、ELECTRA、GPT-2等のディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することができる。
また、質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を機械読解を通じて決定して前記候補質問-応答ペアを生成し、ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定することができる。
本発明によると、入力された原文上でコンテクストが決定され、コンテクストに基づいて質問-応答ペアを生成して質問-応答ペアデータが構築され得る。
また、本発明によると、文章分離およびコンテクスト分割を通じて解を決定し、解に対応する質問を機械読解を通じて決定して質問-応答ペアの品質が向上し得る。
図1は、本発明の実施例に係る質問-応答ペア生成器を示した概念図である。 図2は、本発明の実施例に係る質問-応答ペア生成器の動作を示した概念図である。 図3は、本発明の実施例に係る質問-応答ペア生成プロセスを示した概念図である。 図4は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。 図5は、本発明の実施例に係る質問-応答ペアを生成するための方法を示した概念図である。 図6は、本発明の実施例に係る質問-応答ペアの生成方法を示した概念図である。 図7は、本発明の実施例に係る質問-応答ペアで質問を生成する方法を示した概念図である。 図8は、本発明の実施例に係るセンテンス(または文章)に基づいてコンテクストを決定する方法を示した概念図である。
後述する本発明に対する詳細な説明は、本発明が実施され得る特定の実施例を例示として図示する添付図面を参照する。このような実施例は、当業者が本発明を充分に実施できるように詳細に説明される。本発明の多様な実施例は互いに異なるが相互排他的である必要はないということが理解されるべきである。例えば、本明細書に記載されている特定形状、構造および特性は、本発明の精神と範囲を逸脱することなく一実施例から他の実施例に変更されて具現され得る。また、それぞれの実施例内の個別構成要素の位置または配置も、本発明の精神と範囲を逸脱することなく変更され得ることが理解されるべきである。したがって、後述する詳細な説明は限定的な意味として行われるものではなく、本発明の範囲は特許請求の範囲の請求項が請求する範囲およびそれと均等なすべての範囲を包括するものと受け入れられるべきである。図面で類似する参照符号は多様な側面にわたって同一または類似する構成要素を示す。
以下では、本発明が属する技術分野で通常の知識を有する者が本発明を容易に実施できるようにするために、本発明の多様な好ましい実施例に関して添付された図面を参照して詳細に説明することにする。
図1は、本発明の実施例に係る質問-応答ペア生成器を示した概念図である。
図1では、入力された原文に基づいて質問-応答ペアを生成するために具現された質問-応答ペア生成器が開示される。
図1を参照すると、質問-応答ペア生成器は原文入力部100、ウェブアプリケーション(Web App)110、データベース(database)120、ストレージ(storage)130、マネジャー部140、ウォーカー部150、文書転換部(document converter)160、コンテクスト分離部(context splitter)170、質問-応答ペア生成部180、ノーティファイア(notifier)190を含むことができる。
原文入力部100は、質問-応答ペアを生成するための原文の入力のために具現され得る。原文はEPUB、HTML(Hyper Text Markup Language)、XML、TEXT、SQuAD(Stanford Question Answering Dataset)1.0/2.0、KorSQuAD(The Korean Question Answering Dataset)1.0/2.0のようなフォーマットを有することができる。
ウェブアプリケーション110は,質問-応答ペアを生成するための多様な命令を伝達するために具現され得る。具体的には、ウェブアプリケーション110は原文をデータベース120、ストレージ130に保存し、マネジャー部140に質問-応答ペアを生成するための原文を伝達することができる。また、ウェブアプリケーション110は学習データを受信し、受信された学習データに対するアラームを伝達するために具現され得る。
データベース(database)120は、原文情報および/または学習データに対する保存のために具現され得る。
ストレージ(storage)130は、原文情報および/または学習データに対する保存のために具現され得る。
マネジャー部140は原文データを受信し、質問-応答ペアを生成するための手続きの制御および管理を遂行できる。
ウォーカー部150はマネジャー部から作業が割当され、生成された質問-応答ペアに対する評価を遂行できる。ウォーカー部100は、学習データをウェブアプリケーション110を通じてデータベース120および/またはストレージ130に伝送することができる。ウォーカー部150は抽出した段落と生成された質問-応答ペアを結果(JSONフォーマット)として出力して伝達することができる。
文書転換部(document converter)160は、原文でテキストを抽出するために具現され得る。
コンテクスト分離部(context splitter)170は、抽出されたテキストでコンテクストを分離するために具現され得る。コンテクスト分離部170は分離された文章同士の連関性推論を通じて内容がつながる段落が生成され得る。
質問-応答ペア生成部180は、分離されたコンテクストに基づいて候補質問-応答ペアを生成するために具現され得る。質問-応答ペア生成部180は解を生成し、解による質問をコンテクスト基盤で機械読解を通じて決定して候補質問-応答ペアを生成することができる。
質問-応答ペア生成部180により生成された候補質問-応答ペアはウォーカー部150に伝達され、ウォーカー部150は候補質問-応答ペアのうちエラーを判断して最終的に質問-応答ペアを生成することができる。ウォーカー部150は決定された質問-応答ペアを学習データとしてウェブアプリケーション110を通じて伝達することができる。学習データとして伝達された質問-応答ペアは後ほど質問-応答ペアを決定するための学習データとして使われ得る。また、質問-応答ペアは原文に対する質問-応答ペアデータ構築のために使われ得る。
ノーティファイア(notifier)190は、ウォーカー部150から学習データの伝達の有無に対するアラームを提供するために具現され得る。
本発明ではEPUB、HTML(Hyper Text Markup Language)、XML、TEXT、SQuAD(Stanford Question Answering Dataset)1.0/2.0、KorSQuAD(The Korean Question Answering Dataset)1.0/2.0等のファイル原本入力時、自動で段落抽出および質問-応答ペアが生成され提案されて、人がする手作業が最小化し、結果として良質の質問-応答ペアデータが構築され得る。
生成された質問-応答ペアデータは、再びフィードバックされてより正確な質問-応答ペアの生成に活用され得る。また、生成された質問-応答ペアデータは後ほど使用者の質問に対する解を提供するための学習データとして活用されて、質問に対する解を提供するエンジンを実現するために活用され得る。
具体的には、段落と段落に関連した質問-正解ペアが生成され、質問-応答ペアデータ構築がなされ得る。例えば、政策資料に対するデータが構築され、これを再学習すれば政策資料に対する質問-応答ペアが生成されて政策に対する返答を提供できるモデルが学習され得る。構築されたデータ(質問-応答)に対する再学習が遂行される場合、質問生成および機械読解モデル性能が向上し得る。質問生成および正解検索の性能が上がることによって今後データセットの構築が円滑となり得る。
図2は、本発明の実施例に係る質問-応答ペア生成器の動作を示した概念図である。
図2では、質問-応答ペア生成器が質問-応答ペアを生成して学習のための学習データを生成するための方法が開示される。
図2を参照すると、原文入力部が原文を受信して原文をウェブアプリケーションに伝送する(段階S200)。
ウェブアプリケーションは受信した原文をデータベースとストレージに保存することができる(段階S205)。
ウェブアプリケーションは、受信した原文に基づいてマネジャー部に学習データ自動構築を要請することができる(段階S210)。
学習データは原文基盤で生成された質問-応答ペアであり得る。
マネジャー部はウォーカー部に作業割当を遂行できる(段階S215)。
ウォーカー部は文書転換部にテキスト抽出を要請することができる(段階S220)。
文書転換部は原文でテキストを抽出することができる。
コンテクスト分離部は、抽出されたテキストを対象にコンテクストを分離することができる(段階S225)。
質問-応答ペア生成部は分離されたコンテクストに基づいて候補質問-応答ペアを生成し、生成された候補質問-応答ペアをウォーカー部に伝送することができる(段階S230)。
ウォーカー部は受信した候補質問-応答ペアを検討して最終的に質問-応答ペアを決定した後、最終的に決定された質問-応答ペアをJSON形態の学習データとしてウェブアプリケーションに伝送することができる(段階S235)。
ウェブアプリケーションは受信した学習データをデータベースおよびストレージに保存することができる(段階S240)。
ウェブアプリケーションは学習データの受信をノーティファイアに知らせることができる(段階S245)。
ノーティファイアは管理者装置に学習データの受信を知らせることができる(段階S250)。
管理者の学習データ要請時、下記のような段階で学習データが管理者に伝達され得る。
まず、管理者装置はウェブアプリケーションに学習データを要請することができる(段階S255)。
ウェブアプリケーションはストレージに学習データを要請することができる(段階S260)。
ストレージは管理者装置に学習データを伝達することができる(段階S265)。
図3は、本発明の実施例に係る質問-応答ペア生成プロセスを示した概念図である。
図3では、EPUB、HTML、XML、TEXT、SQuAD 1.0/2.0、KorSQuAD 1.0/2.0フォーマットの原文を受信し、これらフォーマットの原文に基づいて質問-応答ペアを生成する方法が開示される。
図3を参照すると、原文(例えば、EPUBフォーマットの原文)300が入力され得る。
入力された原文300は、テキストパーシングに基づいてテキストを抽出してテキスト情報を含んだSQuAD 1.0/2.0、KorSQuAD 1.0/2.0、EXCELフォーマット310で生成され得る。前述した通り、テキストを抽出してテキスト情報を含んだドキュメントフォーマット310への生成は文書転換部で遂行され得る。
テキストを含むドキュメント310は文章分離を通じてセンテンス(sentence)320単位で分離することができ、センテンス320は段落抽出を通じてコンテクスト330に決定され得る。前述した通り、コンテクスト分離部で前記のようなコンテクスト決定動作が遂行され得る。
コンテクスト330に基づいて質問-応答ペア340、350が生成され、生成された質問-応答ペア340、350はJSONフォーマット360で保存され得る。前述した通り、質問応答生成部は質問-応答ペア340、350を生成し、生成された質問-応答ペア340、350はJSONフォーマット360で保存され得る。
図4は、本発明の実施例に係るコンテクスト抽出方法を示した概念図である。
図4では、テキストでコンテクストを抽出するための方法が開示される。
図4を参照すると、コンテクストを抽出するための1段階410では自然語推論(NLI、Natural Language Inference)、文章類似度測定(Semantic Textual Similarity)を通じて文章類似度が測定され得る。
自然語推論(NLI、Natural Language Inference)と文章類似度測定(STS、(Semantic Textual Similarity)はテキスト内の文章間の関係を決定するために使われ得る。
自然語推論は、前提として与えられたテキストと仮設として与えられたテキスト間の関係を推論することである。前提と仮設間の関係は仮説が真である場合(entailment)、仮説が偽りである場合(contradiction)、仮説が真であってもよく偽りであってもよい場合(neutral)にラベリングされて自然語推論が遂行され得る。
文章類似度は入力で与えられた二つの文章間の意味の同等性を数値で表現するものである。文章類似度はF1 scoreとピアソン相関係数に基づいて決定され得る。
前記のように1段階410の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、2段階420でBERT、ELECTRA、GPT-2等のディープラーニングモデルを通じてキーワードを抽出して文章類似度を測定することができる。
2段階420では、1段階410基盤で獲得された文章関係に基づいて最大限多くのコンテクストが生成され得る。
1段階410では単純に一つの文章と次の文章間の連関性のみを推論することによって段落が細かく分けられて抽出され、捨てる文章が多くなる。2段階420では文章と文章の間での連関性が落ちるように見えても、脈絡を考慮する方法である。つながる内容内では関連がある内容同士を束ねてより大きい単位の段落を作り出すことができる。
図5は、本発明の実施例に係る質問-応答ペアを生成するための方法を示した概念図である。
図5では、コンテクスト分離部がコンテクストでセンテンス(または文章)を分離し、質問-応答ペアを生成する方法が開示される。
図5を参照すると、決定されたコンテクスト500でセンテンス510が分離され、分離されたセンテンス510に基づいて質問530-解520ペアが生成され得る。
まず、文章510に基づいて解520が先に決定され得る。解520が決定された後、解520および解520と関連したコンテクスト525に基づいて候補質問530が生成され得る。
候補質問530およびコンテクスト540に対する機械読解を通じて候補質問-応答ペアが決定され得る
決定された候補質問-応答ペアはウォーカーサーバーに再び伝達され、ウォーカーサーバーは最終的に候補質問-応答ペアのうち最終的に学習データとして使われる質問-応答ペアを決定することができる。
図6は、本発明の実施例に係る質問-応答ペアの生成方法を示した概念図である。
図6では、質問-応答ペアのうち解を決定するための方法が開示される。
図6を参照すると、コンテクストを構成するセンテンス上で解を決定するためにコンテクストに対する分析が遂行され得る。
まず、コンテクストに含まれる単語のうち解に設定可能な品詞に対応する1次候補解610が抽出され得る。
例えば、名詞が解に設定可能な品詞である場合、コンテクスト上で名詞に該当する単語が1次候補解610として抽出され得る。以下、説明の便宜上解に設定可能な品詞は名詞と仮定して説明する。
1次候補解610の抽出後、1次候補解610の分布頻度が判断され得る。
例えば、1次候補解610が10個であって、1次候補解1~1次候補解10である場合、1次候補解1~1次候補解10それぞれのコンテクスト内分布頻度が決定され得る。
1次候補解1~1次候補解10の分布頻度のうち、第1臨界分布頻度以下、第2臨界分布頻度以上の1次候補解610は除外され、2次候補解620が決定され得る。
第1臨界分布頻度以下である場合、解として使うには重要度が低すぎるため解として使われる価値が低いこともあり、第2臨界分布頻度以上の場合、解として使うには一般的な単語であるか、該当解に対する質問難易度が低すぎるため解として使われる価値が低いこともあるためである。
2次候補解620の決定後、2次候補解620のコンテクスト上の位置を考慮して解として設定される優先順位が決定され得る。2次候補解620が5個であって、2次候補解1~2次候補解5である場合、2次候補解1~2次候補解5それぞれのコンテクスト上の位置が決定され得る。2次候補解1~2次候補解5のうち、解として設定され得る優先順位が決定され得る。
コンテクスト上の位置は、コンテクストを構成するセンテンスのうち2次候補解620を含むセンテンスの位置を考慮して決定され得る。2次候補解620を含むセンテンスはターゲットセンテンスという用語で表現され得る。
コンテクスト内のターゲットセンテンス分布が相対的に広いほど2次候補解620の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンス分布は、全体センテンスのうちターゲットセンテンス間の距離を基準として判断され得る。例えば、20個のセンテンスを含むコンテクストでセンテンスは座標化{(1、0)~(20、0)}とされ得る。座標の分布を計算する方式で座標上でターゲットセンテンス分布が算出され得る。
または、コンテクスト内のターゲットセンテンス集中度が相対的に大きいほど2次候補解620の優先順位が高く設定され、解として優先的に設定され得る。コンテクスト内のターゲットセンテンスの集中度はコンテクストの特定位置にターゲットセンテンスが集中的に位置するかに対する値であって、ターゲットセンテンスの個数、ターゲットセンテンスの座標化後の座標間距離を基準として算出され得る。
コンテクストの性格、質問の性格(学習度確認、情報提供)により、互いに異なる要素(ターゲットセンテンス分布がターゲットセンテンスの集中度)を基準として2次候補解620の優先順位が決定され得る。
コンテクスト別に生成されなければならない質問-応答ペアの個数を考慮して優先順位の順で臨界個数の2次候補解が決定され、臨界個数の2次候補解620が最終的に解として決定されて質問-応答ペアが生成され得る。
本発明の実施例によると、質問に対する難易度によって2次候補解620の優先順位は逆に異なって設定され得る。質問に対する難易度が相対的に高くなるほど相対的に低い臨界分布を有し、ターゲットセンテンス分布が相対的に低い2次候補解620を基準として質問が生成され得る。その反対に、質問に対する難易度が相対的に低くなるほど相対的に高い臨界分布を有し、ターゲットセンテンス分布が相対的に高い2次候補解620を基準として質問が生成され得る。
図7は、本発明の実施例に係る質問-応答ペアで質問を生成する方法を示した概念図である。
図7では、解を決定した後、解に対応する質問を生成するための方法が開示される。
図7を参照すると、解に対する質問を決定するために解として設定された2次候補解を含む少なくとも一つのターゲットセンテンス700が分析され得る。
ターゲットセンテンス700は質問として生成が容易な優先順位を基準として質問ターゲットセンテンス750として設定され得る。例えば、ターゲットセンテンス700が5個である場合、ターゲットセンテンス1~ターゲットセンテンス5は質問ターゲットセンテンス1~質問ターゲットセンテンス5に優先順位が設定され得る。
質問ターゲットセンテンス750の優先順位は、ターゲットセンテンス700のうち長さが相対的に長いほど相対的に高い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高い優先順位を有するように設定され得る。その反対に、質問ターゲットセンテンス750の優先順位はターゲットセンテンス700のうち長さが相対的に短いほど相対的に低い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。
このような方法で、質問ターゲットセンテンス750のうち最も優先順位が高い質問ターゲットセンテンスを基準として質問を生成して質問-応答ペアを生成することができる。
本発明の実施例によると、優先順位は難易度により適応的に調整され得る。前述した優先順位は難易度が最も低いものを考慮して設定されたものであり、反対に難易度が高く設定されるようにしたい場合、反対に質問ターゲットセンテンス750の優先順位はターゲットセンテンス700のうち長さが相対的に短いほど相対的に高い優先順位を有し、ターゲットセンテンス700で含まれる単語のうち他の単語と重複する単語が相対的に少ないほど相対的に低い優先順位を有するように設定され得る。
図8は、本発明の実施例に係るセンテンス(または文章)に基づいてコンテクストを決定する方法を示した概念図である。
図8では、センテンスに基づいてコンテクストを決定する方法が開示される。
図8を参照すると、センテンス間の関係に基づいてコンテクストを決定するために、センテンス間の連関度に対する分析が遂行され得る。前述した通り、1段階の自然語推論および文章類似度を通じてテキスト内の文章間の連関性を一次的に決定した後、2段階でTF-IDFを通じてキーワードを抽出して文章類似度を測定する方法が開示される。以下、2段階でTF-IDFを通じてキーワードを抽出して文章類似度を測定してコンテクストを決定する方法が開示される。
一次的に、候補コンテクスト840を決定するために文章別キーワードに対する分析を通じてキーワード基準の1次コンテクスト化が遂行され得る。1次コンテクスト化は、全体テキストで第1臨界回数以上存在するキーワードである中心キーワード800を決定し、中心キーワード800を含む中心キーワードセンテンス820の集合を生成して遂行され得る。中心キーワード800を含むセンテンスは中心キーワードセンテンス820という用語で表現される。中心キーワード800を含まないセンテンスは非中心キーワードセンテンスという用語で表現される。中心キーワード800は複数個であり得る。第1臨界回数は全体原文内の単語分布およびコンテクスト分割要求個数を考慮して決定され得る。全体原文内の単語分布に基づいて繰り返される単語の個数が相対的に多くないほど第1臨界回数は低く設定され得る。また、コンテクスト分割要求個数が相対的に多いほど第1臨界回数は高く設定され得る。
1次コンテクスト化を遂行時、同一の中心キーワード800である第1中心キーワードを有する中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)の間に含まれた非中心キーワードセンテンスは中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)と同一の候補コンテクストに決定され得る。
また、中心キーワードセンテンス1(第1中心キーワード)と中心キーワードセンテンス2(第1中心キーワード)の間に他の中心キーワードである第2中心キーワードを含む中心キーワードセンテンス1(第2中心キーワード)が含まれる場合、第2中心キーワードを基準として新しい候補コンテクスト840に分離され得る。
前述した処理を通じて候補コンテクスト840が一次的に抽出された後、候補コンテクスト840の内部でコンテクスト中心キーワード860を決定して追加的なコンテクスト分割を遂行して最終的にコンテクストを決定することができる。具体的には、コンテクストはコンテクストの内部で第2臨界回数以上繰り返されるコンテクスト中心キーワード860を含むコンテクスト中心キーワードセンテンス880が臨界距離以下に位置した場合、候補コンテクスト840で分離されて設定され得る。
この時、追加的に候補コンテクスト840でコンテクスト中心キーワードセンテンス860を考慮してコンテクストを分離した場合、分離されたコンテクストによって候補コンテクストに残ったセンテンス間の中心キーワード連関度が追加的に分析され、もし、残ったセンテンス間の中心キーワード連関度が臨界値以下である場合、候補コンテクストが最終的にコンテクストに決定され得る。残ったセンテンス間の中心キーワード連関度は、残ったセンテンスが中心キーワードを含んでいるかどうかおよび全体センテンスのうち中心キーワードを含むセンテンスの比率に基づいて決定され得る
すなわち、コンテクストでコンテクスト中心キーワードセンテンス880を考慮してコンテクストを分離時、周辺に残った残りのコンテクストが中心キーワード800と関連度が高くない場合、別途のコンテクスト中心キーワードセンテンス880基盤の分離なしに一つのコンテクストに設定することができる。
以上で説明された本発明に係る実施例は、多様なコンピュータ構成要素を通じて実行され得るプログラム命令語の形態で具現されてコンピュータ読み取り可能な記録媒体に記録され得る。前記コンピュータ読み取り可能な記録媒体は、プログラム命令語、データファイル、データ構造などを単独でまたは組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されるプログラム命令語は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア分野の当業者に公知となっている使用可能なものであり得る。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスクおよび磁気テープのような磁気媒体、CD-ROMおよびDVDのような光記録媒体、フロプティカルディスク(floptical disk)のような磁気-光媒体(magneto-optical medium)、およびROM、RAM、フラッシュメモリなどのような、プログラム命令語を保存し実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令語の例には、コンパイラによって作られるような機械語コードだけでなく、インタープリタなどを使ってコンピュータによって実行され得る高級言語コードも含まれる。ハードウェア装置は本発明に係る処理を遂行するために一つ以上のソフトウェアモジュールに変更され得、その逆も同一である。
以上、本発明が具体的な構成要素などのような特定事項と限定された実施例および図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものに過ぎず、本発明は前記実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、このような記載から多様な修正と変更を試みることができる。
したがって、本発明の思想は前記説明された実施例に限定されて定められてはならず、後述する特許請求の範囲だけでなくこの特許請求の範囲と均等なまたはこれから等価的に変更されたすべての範囲は本発明の思想の範疇に属するものと言える。

Claims (6)

  1. 自然語モデルに基づいた質問-応答ペア生成方法は、
    文書転換部が原文上でテキストを抽出する段階、
    コンテクスト分離部が前記テキストでコンテクストを決定する段階、および
    質問-応答ペア生成部が前記コンテクストで候補質問-応答ペアを生成する段階を含み、
    質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問-応答ペアを生成し、
    ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定し、
    前記質問-応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する1次候補解が抽出され、前記1次候補解の抽出後、前記1次候補解の分布頻度に基づいて2次候補解が決定され、前記2次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記2次候補解を含むセンテンスの位置を考慮して決定され、
    前記2次候補解の優先順位は、前記コンテクスト内の前記2次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
    前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
    ことを特徴とする、方法。
  2. 前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
    前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
    前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項1に記載の方法。
  3. 前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
    前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項に記載の方法。
  4. 自然語モデルに基づいた質問-応答ペア生成器は、
    原文上でテキストを抽出するように具現される文書転換部、
    前記テキストでコンテクストを決定するように具現されるコンテクスト分離部、および
    前記コンテクストで候補質問-応答ペアを生成するように具現される質問-応答ペア生成部を含み、
    質問-応答ペア生成部は前記コンテクストで解を決定し、前記解に対応する質問を決定して前記候補質問-応答ペアを生成し、
    ウォーカー部は前記候補質問-応答ペアに対して追加的な判断を通じて最終的に質問-応答ペアを決定し、
    前記質問-応答ペアのうち、前記解を決定するために、前記コンテクストに含まれる単語のうち前記解に設定可能な品詞に対応する1次候補解が抽出され、前記1次候補解の抽出後、前記1次候補解の分布頻度に基づいて2次候補解が決定され、前記2次候補解の決定後、前記コンテクスト上の位置を考慮して解として設定される優先順位が決定され、前記コンテクスト上の位置は、前記コンテクストを構成するセンテンスのうち前記2次候補解を含むセンテンスの位置を考慮して決定され、
    前記2次候補解の優先順位は、前記コンテクスト内の前記2次候補解を含むターゲットセンテンス分布が相対的に広いほどが高く設定され、
    前記ターゲットセンテンス分布は、全体センテンスのうち前記ターゲットセンテンス間の距離を基準として判断される
    ことを特徴とする、質問-応答ペア生成器。
  5. 前記質問は、質問ターゲットセンテンスのうち最も優先順位が高い質問ターゲットセンテンスを基準として決定され、
    前記質問ターゲットセンテンスは、前記ターゲットセンテンスに対する分析に基づいて、前記ターゲットセンテンスのうち質問として生成が容易な優先順位を基準として決定され、
    前記質問ターゲットセンテンスの優先順位は、前記ターゲットセンテンスのうち長さが相対的に長いほど相対的に高く設定され、前記ターゲットセンテンスで含まれる単語のうち他のターゲットセンテンスに含まれる単語と重複する単語が相対的に多いほど相対的に高く設定される、請求項4に記載の質問-応答ペア生成器。
  6. 前記コンテクスト分離部は自然語推論および文章類似度測定に基づいて前記テキスト内の文章間の関係を決定し、
    前記コンテクスト分離部はディープラーニングモデルに基づいて前記文章でキーワードを抽出して前記コンテクストを決定することを特徴とする、請求項5に記載の質問-応答ペア生成器。
JP2022087930A 2021-08-11 2022-05-30 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置 Active JP7378103B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2021-0106247 2021-08-11
KR1020210106247A KR102410068B1 (ko) 2021-08-11 2021-08-11 자연어 모델을 기반으로 한 질의-응답 페어 생성 방법 및 이러한 방법을 수행하는 장치

Publications (2)

Publication Number Publication Date
JP2023026316A JP2023026316A (ja) 2023-02-24
JP7378103B2 true JP7378103B2 (ja) 2023-11-13

Family

ID=82216622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022087930A Active JP7378103B2 (ja) 2021-08-11 2022-05-30 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置

Country Status (2)

Country Link
JP (1) JP7378103B2 (ja)
KR (1) KR102410068B1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045652A (ja) 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
JP2020135456A (ja) 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100546743B1 (ko) * 2003-10-02 2006-01-26 한국전자통신연구원 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
JP7163143B2 (ja) * 2018-11-13 2022-10-31 株式会社日立製作所 質問応答データ生成装置および質問応答データ生成方法
KR102230372B1 (ko) * 2020-06-10 2021-03-22 한국전자통신연구원 자동 질문 생성을 이용한 챗봇 장치 및 그 동작방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045652A (ja) 2014-08-21 2016-04-04 国立研究開発法人情報通信研究機構 質問文生成装置及びコンピュータプログラム
JP2020135456A (ja) 2019-02-20 2020-08-31 日本電信電話株式会社 生成装置、学習装置、生成方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DU, Xinya et al.,Harvesting Paragraph-Level Question-Answer Pairs from Wikipedia [online],2018年05月15日,[検索日:2020.03.03], Internet<URL:https://arxiv.org/abs/1805.05942>

Also Published As

Publication number Publication date
KR102410068B9 (ko) 2023-09-07
KR102410068B1 (ko) 2022-06-22
JP2023026316A (ja) 2023-02-24

Similar Documents

Publication Publication Date Title
US10621285B2 (en) Architecture and processes for computer learning and understanding
US11449556B2 (en) Responding to user queries by context-based intelligent agents
JP6618735B2 (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
US20200183928A1 (en) System and Method for Rule-Based Conversational User Interface
US20230394247A1 (en) Human-machine collaborative conversation interaction system and method
CN112149427B (zh) 动词短语蕴含图谱的构建方法及相关设备
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及***
CN112069295A (zh) 相似题推荐方法、装置、电子设备和存储介质
Bateman et al. Systemic Functional Linguistics and computation: New directions, new challenges
El Janati et al. Adaptive e-learning AI-powered chatbot based on multimedia indexing
CN112951207B (zh) 口语评测方法、装置及相关产品
CN112599211B (zh) 一种医疗实体关系抽取方法及装置
CN107562907B (zh) 一种智能律师专家案件应答装置
CN117828024A (zh) 一种插件检索方法、装置、存储介质及设备
JP7378103B2 (ja) 自然語モデルに基づいた質問-応答ペア生成方法およびこのような方法を遂行する装置
CN117235347A (zh) 一种基于大语言模型的青少年算法代码辅助学习***及方法
Karpagam et al. Deep learning approaches for answer selection in question answering system for conversation agents
Su et al. Automatic ontology population using deep learning for triple extraction
CN115114453A (zh) 基于知识图谱的智能客服实现方法和装置
CN114417880A (zh) 一种基于电网实训问答知识库的交互式智能问答方法
CN118070925B (zh) 模型训练方法、装置、电子设备、存储介质及程序产品
CN118296132B (zh) 一种基于智能大模型的客服搜索方法及***
Mu et al. Research on Spoken English Speech Recognition Technology Based on MATLAB
Goyal et al. Ingenious: Text Summarization and Question Answering

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230613

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231023

R150 Certificate of patent or registration of utility model

Ref document number: 7378103

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150