JP7035893B2 - 要約文算出装置、要約文算出方法、及びプログラム - Google Patents

要約文算出装置、要約文算出方法、及びプログラム Download PDF

Info

Publication number
JP7035893B2
JP7035893B2 JP2018147837A JP2018147837A JP7035893B2 JP 7035893 B2 JP7035893 B2 JP 7035893B2 JP 2018147837 A JP2018147837 A JP 2018147837A JP 2018147837 A JP2018147837 A JP 2018147837A JP 7035893 B2 JP7035893 B2 JP 7035893B2
Authority
JP
Japan
Prior art keywords
summary sentence
sentence
sentences
coverage rate
addition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018147837A
Other languages
English (en)
Other versions
JP2020024512A (ja
Inventor
暁 渡邉
光希 池内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018147837A priority Critical patent/JP7035893B2/ja
Priority to PCT/JP2019/030728 priority patent/WO2020031959A1/ja
Priority to US17/264,132 priority patent/US20210303774A1/en
Publication of JP2020024512A publication Critical patent/JP2020024512A/ja
Application granted granted Critical
Publication of JP7035893B2 publication Critical patent/JP7035893B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、文の集合から要約文を算出する技術に関連するものである。当該技術の適用分野の例として、作業記録文書からアクション列を可視化する業務フロー可視化システムがある。
大規模化・構成機器の多様化が進むITシステムにおいては、発生故障の種類の多様化と故障の複雑化が問題となっている。故障の多様化と複雑化は、発生した異常の原因の特定と対処の判断を困難にして、故障から復旧までの時間を長期化させる。
対応判断の遅れによる復旧の遅延を防ぐために、故障対応のプロセスをワークフローと呼ばれる形式で可視化する技術(非特許文献1、特許文献1~3)がある。当該技術では、故障発生時に、過去に同じ故障原因が発生したときの作業を記録した文書をデータベースから取り出し、文書から故障対応のプロセスを解析し、ワークフローと呼ぶグラフで可視化する。ワークフローの可視化は、同一の作業や状態を示す文やシンボル列(アクション)の抽出と、アクションの遷移を可視化することからなる。
各アクションの内容を表示する最も単純な方法は、同一アクションとみなされた文を、全て表示することである。しかし、この方法では入力に与えられたデータのアクションに該当する文の全てが表示される。例えば一つのアクションを示す文が十数個も出現すると、視認性を著しく低下させる。同じアクションを示す文である以上、冗長な記述を減らすことが求められる。
すなわち、アクションの表示においては、可読性の観点で、必要最低限の文でアクションを記述することが求められる。
必要最低限の文でアクションを記述するために、例えば同じアクションを示す文の内いずれか一つだけを表示する方法が考えられる。しかしながら、この方法では重要な記述が見逃される可能性がある。同一のアクションを示す文の判定は、ミスなく行われるとは限らない。仮に重要なアクションを示す文が誤って他のアクションと同一とみなされた場合、単一文の表示ではどちらかのアクションがワークフロー上に表示されなくなる。また、アクションの記述の中には補足情報が記載されていることもあり、ランダムな文の選択では、価値のある補足情報が非表示になる可能性もある。システムオペレーションにおいては作業漏れが障害を起こし得るため、必要な情報は残さず表示されることが望ましい。
必要最低限の文でアクションを記述するために、従来の要約文算出手法を用いることが考えられる。従来の要約文算出手法として、与えられた文の集合に含まれる単語を一定割合以上含んだ、最も単語数の少ない文の組み合わせを選び出すLinらの最適化問題定義(非特許文献2)及び貪欲法によるその解法(非特許文献3)が提案されている。この手法の概要は下記のとおりである。
入力となる文の集合をSとし、Sのうちいずれかの文を選択した部分集合をV⊆Sとする。更に、Sに含まれる全ての単語のうち、Vのいずれかの文に含まれる単語の割合をf(V)で表す。f(V)はVの単語だけでSの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。V=Sのときf(V)=1であり、V=Φのときf(V)=0である。Linらの手法を用いた要約文算出では、指定した閾値0≦r≦1よりもf(V)が大きいVの内、Vに含まれる文の単語数の合計が最も少ないVを求める。
上記の問題を数式で表すと、次のようになる。
min.Σs∈V|s|、subject to.f(V)≧r。
上記の式において、|s|は文sに含まれる単語の数を表す。上記の最小化問題はNP困難であるが、非特許文献3の貪欲法に基づく解法では、精度が保証された近似解が得られる。この方法では、Sの内、f(V)を最も増加させる文v*を一つずつ選んで、f(V)≧rとなるまでVに追加していく。この方法の擬似コードを下記に示す。
V=Φとする。
While f(V)≦r:
v*=argmaxs∈S(f(V∪{s})-f(V))/|s|
V=V∪{v*}
Vを解として返す。
なお、この手法は複数文書要約で最も多く用いられる、単語数の上限を制約とした手法とは異なる。複数文書要約では、一定の単語数以下に要約文が収まるよう、Σs∈V|s|を目的関数でなく制約条件とした手法が多い。しかしながら、ワークフローの可視化においては単語数に特定の限定がなく、必要な情報を網羅していることが重要な制約となる。
そのため、制約条件は文書の情報の網羅性を示すカバー関数f(V)であり、利用者によって指定される制約の閾値は、単語数ではなくカバー率の下限rで与えられる。
Linらの手法により、冗長な文を除いた要約文が作成可能となる。上述したとおり、アクションの説明表示においては、同一アクションと判定された文の集合に含まれる情報全てを、冗長な記述を省きながら表示する必要がある。Linらの手法で、S中の文に多数含まれる単語があったとき、その単語を含む文sをVに追加すると、その単語を含まない文を追加した場合に比べて、f(V)は大きくなりやすい。加えて、既にVに含まれている単語は、新たに追加されてもf(V)を大きくしない。そのため、少ない単語数でf(V)を大きくするために、Linらの手法では、同一の単語を要約文に含むことを避けるように、要約文を作成することができる。
特開2016-53871号公報 特開2018-55327号公報 特開2017-228094号公報
Akio Watanabe, Keisuke Ishibashi, Tsuyoshi Toyono, Keishiro Watanabe, Tatsuaki Kimura, Yoichi Matsuo, Kohei Shiomoto and Ryoichi Kawahara ``Workflow Extraction for Service Operation Using Multiple Unstructured Trouble Tickets,'' IEICE Transactions on Information and Systems, E101-D, No.4, pp. 1030-1041, 2018. Hui Lin and Jeff Bilmes, "A Class of Submodular Functions for Document Summarization,'' In Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Vol. 1, pp. 510-520. 2011 Laurence A. Wolsey, ``An analysis of the greedy algorithm for the submodular set covering problem,'' Combinatorica, Vol. 2, No. 4, pp. 385-393, 1982.
従来技術であるLinらの手法に基づく貪欲法では、f(V)を最も増加させる文を一つずつ選択する処理を繰り返し、これまでに選択した文で全文の単語のどれだけをカバーしたかのみを文の選択基準にする。
しかし、実際には、作業記録には装置名や装置番号のような、事象ごとに異なる単語が存在するために、閾値rによるアルゴリズム終了判定が適切に動作しない場合がある。そのような例を図1を参照して説明する。
図1の(a)に示すように、"ポート1交換"、"ポート2交換"、…という、ポート番号のみが異なる文が50個集まった集合を考える。このとき、文集合全体に対して不変箇所の"交換"という単語のカバー率が全体の約半数、可変箇所であるポート番号ごとのカバー率が0.01であるため、カバー率の下限rを仮に0.7と設定すると、図1の(b)に示したように、殆ど同じ意味を示す文が20個選択されてしまう。
このように作業記録では、装置名のような文ごとに異なる単語が、カバー率の多くを占めることがある。そのために従来技術では、カバー率を上昇させるために、僅かな単語の違いのみを持つ文も網羅するように要約を作成してしまい、冗長な記述が多く残る不十分な要約となる課題があった。
本発明は上記の点に鑑みてなされたものであり、文の集合から、必要最低限の文の集合からなる要約を算出する技術を提供することを目的とする。
開示の技術によれば、文の集合を入力する入力手段と、
前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
前記要約文算出手段は、
前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
ことを特徴とする要約文算出装置が提供される。
開示の技術によれば、文の集合から、必要最低限の文の集合からなる要約を算出することが可能となる。
課題を説明するための図である。 実施の形態における要約文表示装置の機能構成図である。 作業記録DBに格納された情報の例を示す図である。 ワークフロー生成部により生成されるワークフローの例を示す図である。 要約文算出部によりアクションを簡易表示したワークフローの例を示す図である。 要約文表示装置のハードウェア構成図である。 要約文算出部の処理のフローチャートである。 要約文算出部の処理の具体例を説明するための図である。
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
以下で説明する実施の形態では、本発明をワークフローの表示に適用する例を示しているが、本発明は、ワークフローの表示に限らずに、様々な技術分野に適用可能である。
(装置の機能構成、全体動作)
図2に、本発明の実施の形態における要約文表示装置100の機能構成図を示す。本実施の形態における要約文表示装置100は、ワークフローにおける、アクションと呼ばれるグラフの各ノードに表示する文を決定し、ワークフローを表示する装置である。
図2に示すように、要約文表示装置100は、作業記録DB110、ワークフロー生成部120、要約文算出部130、及び入出力インタフェース140を有する。なお、要約文表示装置100を、要約文算出装置と称してもよい。また、要約文算出部130を1つの装置として構成してもよく、当該装置を要約文算出部130と称してもよい。
作業記録DB110は、過去の故障における原因及び作業記録の情報を蓄積する。作業記録の情報は、作業内容を記録した作業記録文の集合である。当該作業記録文の集合は、入出力インタフェース140から入力され、作業記録DB110に格納される。作業記録DB110に格納される文の集合の例を図3に示す。図3に示されるように、当該文書データにおいては、同一の内容が異なる表現で記録されている。
ワークフロー生成部120は、入出力インタフェース140からのワークフローを生成する作業記録の指定に基づき、作業記録DB110から作業記録の文の集合を読み出し、例えば非特許文献1に示す方法を用いて、アクションとアクション間の遷移を持つグラフをワークフローとして生成する。ワークフローはアクションとその遷移から構成され、アクションとは入力の作業記録における同一の動作等を示す文の集合である。
より具体的には、ワークフロー生成部110は、文同士の類似度を定義し、類似度を最大化する文の組み合わせを見つけることで、文書中の同一アクションを示す文を発見する。そして、発見したアクションを、文書中の文の記述順序に従って繋ぐことで、アクションと次のアクションへの遷移を描き、ワークフローを可視化する。図3の作業記録に基づいて生成されたワークフローの例を図4に示す。
要約文算出部130は、ワークフロー生成部120で得たワークフローに含まれる、それぞれのアクションに対して要約処理を行う。要約文算出部130へは、入力として、同一のアクションを示す文全ての集合が与えられる。また、要約文算出部130は、アクションを示すグラフの各ノードに表示する文又は文の集合を出力する。出力の文又は文の集合が、入力の文の集合より長くなることは無く、より簡約化されて表示される。
すなわち、要約文算出部130は、ワークフローにおける各アクションで表示を行う文を、与えられた文集合に含まれる情報を網羅的に表示でき、かつ僅かな単語の違いは網羅不要として非表示とするような、必要最低限の文として算出する。そして表示文を、入出力インタフェース140を通じて利用者に提示する。
図5に、図3で示した作業記録を用いた場合において、要約文算出部130により算出された要約文を用いたワークフローの例を示す。図5に示すとおり、殆どのアクションでは、記述内容が同一であるため、1文のみが表示されている。6つ目のアクションのみ、補足情報である予備部材の手配について触れていることから、要約されずに2文が表示されている。このように図5ではアクションを示す各ノードの表示量が削減され、図4のワークフローと比較して可読性が高いことがわかる。
このように、同一アクションと判定された文に含まれる情報全てを、冗長な記述を省きながら表示することで、冗長なアクションの記述による視認性低下と、作業の表示漏れによるオペレーションミスの防止の2点を防ぐことができる。
要約文算出部130におけるより詳細な処理内容については後述する。
(ハードウェア構成例)
上述した要約文表示装置100は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
すなわち、要約文表示装置100は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、要約文表示装置100で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。
図6は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図6のコンピュータは、それぞれバスBで相互に接続されているドライブ装置150、補助記憶装置152、メモリ装置153、CPU154、インタフェース装置155、表示装置156、及び入力装置157等を有する。
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体151によって提供される。プログラムを記憶した記録媒体151がドライブ装置150にセットされると、プログラムが記録媒体151からドライブ装置150を介して補助記憶装置152にインストールされる。但し、プログラムのインストールは必ずしも記録媒体151より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置152は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置153は、プログラムの起動指示があった場合に、補助記憶装置152からプログラムを読み出して格納する。CPU154は、メモリ装置153に格納されたプログラムに従って、要約文表示装置100に係る機能を実現する。インタフェース装置155は、ネットワークに接続するためのインタフェースとして用いられる。表示装置156はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置157はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。
(要約文算出部130の処理の詳細)
以下、本実施の形態における要約文算出部130の処理内容をより詳細に説明する。
要約文算出部130において、Linらの手法(非特許文献2、3)を踏襲しつつ、新たに追加される文によって情報量(具体的にはカバー率)がどれだけ増加するかも判定条件に用いることとしている。具体的には下記のとおりである。
要約文算出部130への入力となる文の集合をSとし、Sのうちいずれかの文を選択した部分集合をV⊆Sとする。このVは、要約となる文の集合(文の数が1つである場合を含む)を表すので、これを要約文集合と呼んでもよい。更に、Sに含まれる全ての単語のうち、Vのいずれかの文に含まれる単語の割合をf(V)で表す。既に説明したとおり、f(V)はVの単語だけでSの単語をどれだけカバーできているかを表すため、カバー率と呼ばれる。
要約文算出部130は、基本的には、Sの内、f(V)を最も増加させる文s*を一つずつ選んで、f(V)≧rとなるまでVに追加していく。ただし、要約文算出部130は、Vに対して、新たに文s*を選択した際に、fs(V∪{s*})-fs(V)を計算し、fs(V∪{s*})-fs(V)<θであれば、文s*をVに追加せず、その時点のVを出力して処理を終了する。θは予め与えられる閾値である。すなわち、要約文算出部130は、カバー率の増加量が、ある閾値未満であれば、その時点のVを出力して処理を終了する。
要約文算出部130の処理手順を示す疑似コードは下記のとおりである。既に説明したように、|s|は文sに含まれる単語の数を表す。なお、下記のコードに示される処理内容(及び図7を参照して後述する処理手順)は一例である。新たに追加される文によって情報量がどれだけ増加するかを判定条件に用いる方法であれば、下記のコードで示される処理内容(及び図7を参照して後述する処理手順)に限定されるわけではない。
V=Φとする。
While f(V)≦r:
s*=argmaxs∈S(f(V∪{s})-f(V))/|s|
if fs(V∪{s*})-fs(V)<θ:
Vを解として返す。
V=V∪{s*}
Vを解として返す。
閾値rでの終了判定がカバー率の総量を用いるのに対し、上記のifでの条件は、新たにs*を追加したときのカバー率の増加量が閾値未満であることを示す。即ち、新規に追加される文でカバー率が一定以上上昇しない場合、sよりも前にVに追加した文と情報の重なりが大きいと考えて、追加を行わない。
なお、従来の多くの文書要約では決められた文字数等条件に収まるよう文書を要約するため、情報量が所定の要件を満たすことに主眼をおいた本実施の形態における上記のような終了条件を使用する処理は、従来技術において類似したものがない。
上記の擬似コードに基づいて要約文算出部130が実行する処理手順を図7のフローチャートを参照して説明する。図7のフローチャートの前提として、要約文算出部130にはSが既に入力されているとする。
S1(ステップ1)において、要約文算出部130はVを空集合に初期化する。
S2において、要約文算出部130は、カバー率がr以下であるか否かを判定し、判定結果がNoであればS5に進んでVを解として出力する。判定結果がYesであればS3に進む。
S3において、要約文算出部130は、「(f(V∪{s})-f(V))/|s|」を最大化する文である文s*をSから選択する。
S4において、要約文算出部130は、文s*を追加したときのカバー率の増加量が閾値θ未満であるか否かを判定する。判定結果がYesであればS5に進んでVを解として出力する。判定結果がNoであればS6に進む。
S6において、要約文算出部130は、Vに文s*を追加したものを新たなVとする。S6の後、再びS2から処理が実行される。
上述した要約文算出部130の処理の具体例を図8を参照して説明する。図8の(a)に示すように、図1の場合と同じく、"ポート1交換"、"ポート2交換"、…という、ポート番号のみが異なる文が50個集まった集合をSとする。また、カバー率の下限rを0.7とし、θを0.02とする。
(b)に示すように、まず、要約文算出部130は、文s*として文1(port01交換)を選択する。このとき、fs(V∪{s*})-fs(V)は0.51であり、「fs(V∪{s*})-fs(V)<θ」の条件を満たさず、また、fs(V∪{s*})=0.51であり、「f(V)≦r」を満たす。
よって、(c)に進み、要約文算出部130は、文s*として文2(port02交換)を選択する。このとき、fs(V∪{s*})-fs(V)は0.52-0.51=0.01であり、「fs(V∪{s*})-fs(V)<θ」の条件を満たす。よって、「f(V)≦r」を満たしていても、(d)に示すように、V(=port01交換)を出力して処理を終了する。
このように、要約文算出部130の処理により、重なりの多い分の不要な表示を回避できる。
(実施の形態の効果)
本実施の形態により、従来技術のワークフローと比べて、各アクションの示す動作がより簡潔なワークフローを作成可能となる。そのため、迅速な故障対応が求められるシステム運用において、いち早く行うべき動作を把握し、迅速な対処が可能となる。
(実施の形態のまとめ)
以上説明したように、本実施の形態によれば、文の集合を入力する入力手段と、前記文の集合から要約文集合を算出する要約文算出手段と、を備え、前記要約文算出手段は、前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行することを特徴とする要約文算出装置が提供される。
要約文算出部130は、入力手段及び要約文算出手段の例であり、要約文表示装置100は、要約文算出装置の例である。
前記要約文算出手段は、例えば、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する。また、前記所定の文は、例えば、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である。
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
100 要約文表示装置
110 作業記録DB
120 ワークフロー生成部
130 要約文算出部
140 入出力インタフェース
150 ドライブ装置
151 記録媒体
152 補助記憶装置
153 メモリ装置
154 CPU
155 インターフェース装置
156 表示装置
157 入力装置

Claims (7)

  1. 文の集合を入力する入力手段と、
    前記文の集合から要約文集合を算出する要約文算出手段と、を備え、
    前記要約文算出手段は、
    前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
    ことを特徴とする要約文算出装置。
  2. 前記要約文算出手段は、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
    ことを特徴とする請求項1に記載の要約文算出装置。
  3. 前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
    ことを特徴とする請求項1又は2に記載の要約文算出装置。
  4. 要約文算出装置が実行する要約文算出方法であって、
    文の集合を入力する入力ステップと、
    前記文の集合から要約文集合を算出する要約文算出ステップと、を備え、
    前記要約文算出ステップにおいて、前記要約文算出装置は、
    前記文の集合から、所定の文を選択し、当該所定の文を新たな要約文集合に追加した場合における追加後の要約文集合のカバー率の、追加前の要約文集合のカバー率に対する増加量を算出し、当該増加量が第1の閾値未満である場合に、前記追加前の要約文集合を出力して処理を終了し、前記増加量が前記第1の閾値以上である場合に前記追加後の要約文集合を新たな要約文集合とする処理を、処理を終了するまで繰り返し実行する
    ことを特徴とする要約文算出方法。
  5. 前記要約文算出ステップにおいて、前記要約文算出装置は、前記追加後の要約文集合のカバー率が第2の閾値よりも大きい場合に、前記追加後の要約文集合を出力し、処理を終了する
    ことを特徴とする請求項4に記載の要約文算出方法。
  6. 前記所定の文は、前記追加前の要約文集合のカバー率に対する前記追加後の要約文集合のカバー率を最も増加させる文である
    ことを特徴とする請求項4又は5に記載の要約文算出方法。
  7. コンピュータを、請求項1ないし3のうちいずれか1項に記載の要約文算出装置における各手段として機能させるためのプログラム。
JP2018147837A 2018-08-06 2018-08-06 要約文算出装置、要約文算出方法、及びプログラム Active JP7035893B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018147837A JP7035893B2 (ja) 2018-08-06 2018-08-06 要約文算出装置、要約文算出方法、及びプログラム
PCT/JP2019/030728 WO2020031959A1 (ja) 2018-08-06 2019-08-05 要約文算出装置、要約文算出方法、及びプログラム
US17/264,132 US20210303774A1 (en) 2018-08-06 2019-08-05 Summary sentence calculation apparatus, summary sentence calculation method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018147837A JP7035893B2 (ja) 2018-08-06 2018-08-06 要約文算出装置、要約文算出方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020024512A JP2020024512A (ja) 2020-02-13
JP7035893B2 true JP7035893B2 (ja) 2022-03-15

Family

ID=69413587

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018147837A Active JP7035893B2 (ja) 2018-08-06 2018-08-06 要約文算出装置、要約文算出方法、及びプログラム

Country Status (3)

Country Link
US (1) US20210303774A1 (ja)
JP (1) JP7035893B2 (ja)
WO (1) WO2020031959A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171330A (ja) 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2013206433A (ja) 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017174059A (ja) 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762283B2 (en) * 2015-11-20 2020-09-01 Adobe Inc. Multimedia document summarization
CN106844139A (zh) * 2016-12-19 2017-06-13 广州视源电子科技股份有限公司 一种日志文件分析方法及装置
US10949452B2 (en) * 2017-12-26 2021-03-16 Adobe Inc. Constructing content based on multi-sentence compression of source content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013171330A (ja) 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2013206433A (ja) 2012-03-29 2013-10-07 Nippon Telegr & Teleph Corp <Ntt> 文書要約装置及び方法
JP2017174059A (ja) 2016-03-23 2017-09-28 株式会社東芝 情報処理装置、情報処理方法およびプログラム

Also Published As

Publication number Publication date
JP2020024512A (ja) 2020-02-13
WO2020031959A1 (ja) 2020-02-13
US20210303774A1 (en) 2021-09-30

Similar Documents

Publication Publication Date Title
US10073827B2 (en) Method and system to generate a process flow diagram
KR102636493B1 (ko) 의료 데이터 검증 방법, 장치 및 전자 기기
US20210241893A1 (en) Dashboard Usage Tracking and Generation of Dashboard Recommendations
US8111922B2 (en) Bi-directional handwriting insertion and correction
JP7155758B2 (ja) 情報処理装置、情報処理方法及びプログラム
WO2010056444A2 (en) Automatic designation of footnotes to fact data
JP2017204018A (ja) 検索処理方法、検索処理プログラムおよび情報処理装置
JP7374756B2 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
JP5526057B2 (ja) データ分析支援装置およびプログラム
JP2020166735A (ja) 生成方法、学習方法、生成プログラム、及び生成装置
JP7035893B2 (ja) 要約文算出装置、要約文算出方法、及びプログラム
US10257055B2 (en) Search for a ticket relevant to a current ticket
JP2012511759A (ja) ユーザ指定された語句入力学習
WO2020241039A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20220284280A1 (en) Data labeling for synthetic data generation
JP7416665B2 (ja) 対話システム、及び対話システムの制御方法
US20150347182A1 (en) Computer product, execution-flow-creation aiding apparatus, and execution-flow-creation aiding method
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
WO2019087593A1 (ja) 文書検索装置および方法
JP7216680B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2020071668A (ja) 要約生成方法及び要約生成プログラム
Wallin Sentiment analysis of Amazon reviews and perception of product features
US20240078559A1 (en) System and method for suggesting and generating a customer service template
US20230237275A1 (en) Systems and methods for an end-to-end evaluation and testing framework for task-oriented dialog systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220214

R150 Certificate of patent or registration of utility model

Ref document number: 7035893

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150