JP2023034235A

JP2023034235A - テキスト要約方法、テキスト要約システム

Info

Publication number: JP2023034235A
Application number: JP2021140376A
Authority: JP
Inventors: 学土田; Manabu Tsuchida; 篤季山口; Atsuki Yamaguchi; 太亮尾崎; Hiroaki Ozaki; 健一横手; Kenichi Yokote
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-03-13
Also published as: US20230069113A1

Abstract

【課題】テキストを高精度に自動要約できるテキスト要約方法及びシステムを提供する。【解決手段】テキスト要約システム１００において、テキスト要約方法は、コンピュータが実行する。入力部１０１がテキスト９０１の入力を受け付け、テキストを話題単位でブロックに区切ったブロック化テキストを生成する、ブロック化部１０２が実行するブロック化ステップと、ブロック化テキストにおけるブロックごとにテキストの内容を要約して要約化テキストを出力する要約ステップと、要約化テキストの内容を構造化して出力する、構造化部１０３－２が実行する構造化ステップと、を含む。【選択図】図１

Description

本発明は、テキスト要約方法、およびテキスト要約システムに関する。

会議やコールセンタの応答では、人の発話を介して情報交換や指示、または意思決定を行う。発話内容を書き起こした文書（発話テキスト）には、発話の履歴や発話者の情報が含まれている。このような発話テキストを自動的に要約（自動要約）して人に提示することは、会議の振り返りや意思決定を支援するための重要な技術である。

発話テキストの自動要約は、自動要約の結果を確認する人（利用者）にとって読みやすく精度が高いものでなければならない。例えば、発話テキストから適切な要点、意見、および理由などの内容が構造化された形で利用者に提示されることで、自動要約の精度を高めることができる。精度の高い自動要約を提示するための技術として、発話テキストを適切な長さで分割する技術（ブロック化）や、発話テキストから重要個所を抜き出して要約とする技術（抽出型要約）や、発話テキストを簡潔に言い換える技術（抽象型要約）、および人が理解しやすい形式に変換して表示する技術（構造化）、などが用いられており、いずれも自然言語処理の技術が活用されている。

ブロック化は、発話テキストを分割または抽出することにより、発話テキストから発話テキストの一つ以上の部分集合を得る。例えば、ブロック化では、発話テキストを機械が処理できる長さまで裁断し、裁断した各テキストに対して要約を行うことで、自動要約の精度を高めることができる。他にも、例えば、重要な話題に関する発話の部分だけを分割および抽出するブロック化を行うことで、特定の話題を自動要約して利用者に提示することができる。特許文献１には、テキストの談話構成要素を決定するステップと、テキストの談話の構造表現を決定するステップと、少なくとも一つの関連性の非構造基準に基づいて談話構成要素の関連性スコアを決定するステップと、談話の構造表現に基づいて関連性スコアを浸透するステップと、閾値関連性スコアと比較した関連性スコアにより、談話構成要素に基づいてハイブリッドテキスト要約を決定するステップと、を有するハイブリッドテキスト要約を決定する方法が開示されている。

抽象型要約は、発話テキストの要点を簡潔にまとめることで、元の発話テキストを短く表現するテキストへと変換する。例えば、コンピュータに、形式的な階層構造を有する文書の要約範囲を認定させて該要約範囲の要約文書を作成させる手法が知られている。他には、抽象型要約を実施するための技術には、ニューラルネットワークが用いられることがある。例えば、抽象型要約では、Encoder-Decoderモデルなどのニューラルモデルによって自動要約元となるテキストを、適切な長さの要約文へと変換することができる。他にも、近年では、事前学習済み言語モデルであるＢＥＲＴ（Bidirectional Encoder Representations from Transformers）やＢＡＲＴ（Bidirectional and Auto-Regressive Transformers）を活用することが考えられる。ＢＥＲＴやＢＡＲＴは、World Wide Webから収集された大量なテキストから知識を蓄積し、この蓄積された知識を自動要約の生成に利用することで、極めて流暢かつ精度の高い要約を生成できる。

構造化は、発話テキストから適切な構造を推定し、推定した構造を表示することで、利用者にとって分かりやすい要約を利用者に提示する。例えば、発話テキストから意見を述べている部分を抽出し、箇条書きとして利用者に提示する自動要約を行うことが考えられる。

特開２００５－１２２７４３号公報

発話テキストには音声認識で発生するノイズが含まれており、従来の精度の低い抽象型要約を発話テキストに対して利用することが難しかった。他にも、例えば、口語独特の「えー」や「あー」などのフィラー、または挨拶やオンライン会議への接続確認のように、議論の本質とは関係のない語句が発話テキストには多く含まれている。このような不要な語句は、理論上は抽象型要約によって除去することができるが、従来の抽象型要約の性能では依然として不要な語句を除去できず、自動要約された結果を利用者に提示しても、利用者にとって可読性が低かった。
このように、従来の議事録の要約システムでは、抽象型要約に技術的困難があったため、いったん発話テキストを抽出型要約と文分類などを用いて構造化した後に、抽象型要約を行う手法、すなわち「構造化してから要約を行う」という手段がとられていた。例えば、抽出型要約によって抽出された文を特定のカテゴリへと分類することで構造化を行い、最終的に前記抽出された文を文体変換することで自動要約を実現する手法が知られている。しかし、「構造化してから要約（この場合文体変換）を行う」という手段では、抽出型要約の結果、およびテキストの要約が特定のカテゴリへと分類する際などの構造化の結果に依存するため、要約結果に連続性や文脈が考慮されず、言語的および意味的に不自然になってしまう可能性があった。特許文献１に開示されている技術でも、テキストの自動要約に改善の余地がある。

本発明の第１の態様によるテキスト要約方法は、コンピュータが実行するテキスト要約方法であって、テキストの入力を受け付け、前記テキストを話題単位でブロックに区切ったブロック化テキストを生成するブロック化ステップと、前記ブロック化テキストにおける前記ブロックごとに前記テキストの内容を要約して要約化テキストを出力する要約ステップと、前記要約化テキストの内容を構造化して出力する構造化ステップと、を含む。
本発明の第２の態様によるテキスト要約システムは、テキストの入力を受け付け、前記テキストを話題単位でブロックに区切ったブロック化テキストを生成するブロック化部と、前記ブロック化テキストにおける前記ブロックごとに前記テキストの内容を要約して要約化テキストを出力する要約部と、前記要約化テキストの内容を構造化して出力する構造化部と、を含む。

本発明によれば、テキストを高精度に自動要約できる。

第１の実施の形態におけるテキスト要約システムのシステム構成図入力テキストおよびブロック化部の処理例を示す図ブロック化部の動作を決定するブロック化パラメータの入力画面を示す図要約部の処理例を示す図構造化部の処理例を示す図構造化部の動作を決定する構造化パラメータの入力画面を示す図第２の実施の形態におけるテキスト要約システムのシステム構成図第３の実施の形態におけるテキスト要約システムのシステム構成図発話者特定の一例を示す図発話者特定後にブロック化および構造化を実施する一例を示す図第４の実施の形態におけるテキスト要約システムのシステム構成図テキスト要約システムを実現するコンピュータのハードウェア構成図

本発明を実施するための形態を、図表を用いて説明する。以下において、各実施例および各変形例は、本発明の趣旨を逸脱しない範囲で一部または全部を組み合わせることができるものとする。

―第１の実施の形態―
以下、図１～図６を参照して、テキスト要約システムの第１の実施の形態を説明する。以下の説明において、テキスト要約システムは、テキストを入力とし、テキストを話題単位で区切りブロックを生成する。そしてテキスト要約システムは、このブロックごとに内容を要約し、この要約を構造化することで自動要約された結果を利用者に提示する。

（システム構成）
図１は、テキスト要約システム１００のシステム構成図である。第１の実施の形態におけるテキスト要約システム１００は、入力部１０１、ブロック化部１０２、およびブロック単位処理部１０３を含む。ブロック単位処理部１０３は、要約部１０３－１、および構造化部１０３－２をふくむ。本実施の形態では、例えば、発話テキストを入力として、自動要約された結果を利用者へ提示できる。利用者へ提示される自動要約は、例えば、議事録の自動要約、コールセンタの発話応答の自動要約、報告書の自動作成、などの様々なアプリケーションへ応用できる。

入力部１０１は、文字列からなるテキストを入力として受け付け、ブロック化部１０２へと出力する。入力部１０１は、議事録、発話応答、およびチャット履歴など様々な種別の入力形式を受け付ける。また、入力部１０１への入力形式は、ＤＢ（Data Base）などの構造化されたデータ形式でもよいし、テキスト、文書処理ソフトのファイル形式、表計算ソフトのファイル形式、Ｗｅｂページ、およびＰＤＦ（Portable Document Format）などの構造化されていないデータ形式でもよい。また、入力部１０１へ入力するファイルに画像や表が挿入されていても構わない。さらに、第１の実施の形態ではテキストは日本語を前提として説明するが、英語や中国語など他の言語であっても問題ない。

入力部１０１は、少なくとも１以上の文字または文字に準ずるデータから構成される入力テキスト９０１（図２を参照）を入力として受け付け、ブロック化部１０２へと出力する。このとき、ブロック化部１０２への出力は、入力部１０１によって不要な文字コードの除去やテキストの整形などの処理が行われた結果でもよい。さらに、入力部１０１では、形態素解析や係り受け解析などの処理が行われてもよい。

図２は入力テキスト９０１およびブロック化部１０２の処理例を示す図である。図２に示す入力テキスト９０１は、あるオンライン会議の参加者の発話テキストである。入力テキスト９０１は合計８個の発話で構成されており、この８個の発話が上から下に時系列で並べられている。なお、入力テキスト９０１は時系列であっても、時系列でなくても構わないが、第１の実施の形態では入力テキスト９０１が時系列に並んでいるものとして説明する。

ブロック化部１０２は、入力部１０１から受け付けたテキストを特定のブロックへと分割または抽出（ブロック化）し、要約部１０３－１へと出力する。以下では、ブロック化部１０２が出力するブロック化した入力テキスト９０１をブロック化テキスト１０２ａと呼ぶ。なお、第１の実施の形態では、入力部１０１から受け付けたテキストを特定の話題で区切ることをブロック化とみなして説明するが、ブロック化はどのような形態でも構わない。話題で区切る以外には例えば、重要な箇所の抽出、固定長のブロック数によるブロック化、または時間によるブロック化などの方法が考えられる。

ブロック化部１０２は、例えば、入力部１０１から受け付けたテキストの話題の区切れ目を、機械学習を用いて推定し、ブロックへと分割する。図２では、ブロック化部１０２が入力テキスト９０１をブロック化し、ブロック化テキスト１０２ａへと変換する処理の一例が示されている。図２のブロック化の例では、入力テキスト９０１に含まれる「発話：あーちょっと音量が音量があー聞きとれないな」、「発話：どうでしょ聞こえますか」および「発話：聞こえるはいい聞こえるようになりました」の連続する３発話がオンライン会議の接続状況に関する一つの話題とみなせるため、これら３つの発話がひとまとまりの「ブロック１」とみなされている。

また、入力テキスト９０１に含まれる「発話：今日の午後からえー避難訓練がありますので」および「発話：放送が聞こえたら机の下に隠れる隠れる次点呼を点呼を行いますのでえー皆さんきちんと対応するように」の連続する２発話がオンライン会議における避難訓練に関する指示であり、これら２つの発話がひとまとまりの「ブロック２」とみなされる。さらに、入力テキスト９０１に含まれる「発話：ちょっといいですか私はリモートですので今日は参加できません」、「発話：そうですか」および「発話：わかりましたがマイクも避難マニュアルを読んでおいてください」の連続する３つの発話がオンライン会議における避難訓練に関する発話者同士の情報共有であり、これら３つの発話がひとまとまりの「ブロック３」とみなされている。

ブロック化部１０２におけるブロック化の手段はどのような方法であっても構わない。ブロック化の手段は例えば、ルールベース、機械学習を用いた自動ブロック化、および手動選択などの方法が考えられる。また、機械学習を用いた自動ブロック化には、ＬＳＴＭ（Long Short Term Memory）や言語モデルを用いてもよい。

図３は、第１の実施の形態におけるブロック化部１０２の動作を決定するブロック化パラメータの入力画面を示す図である。図３におけるブロック化パラメータ入力画面１０２ｂは、ブロック化に必要なパラメータを調整するためのチェックボックスを有する。ブロック化パラメータ入力画面１０２ｂには、第１チェックボックス１０２ｂ１、第２チェックボックス１０２ｂ２、および第３チェックボックス１０２ｂ３が含まれる。第１チェックボックス１０２ｂ１は、テキストを定数値の文数でブロック化する機能の選択に用いられる。第２チェックボックス１０２ｂ２は、機械学習などを用いて自動的にブロック化する機能の選択に用いられる。第３チェックボックス１０２ｂ３は、ブロック化を手動選択する機能の選択に用いられる。

さらに、手動選択によってブロック化を入力する場合は、範囲を指定することが可能である。ブロック化パラメータ入力画面１０２ｂでは、「ボブ：あーちょっと音量が音量があー聞きとれないな」、「アリス：どうでしょ聞こえますか」、および「ボブ：聞こえるはいい聞こえるようになりました」の３発話が非選択となっており、要約部１０３－１への入力から除外されることを示している。ただし図３では、作図の都合により下線を付すことで選択されていることを示している。

なお、前述のチェックボックスは一例であり、項目の種類を問わない。また、ブロック化パラメータ入力画面１０２ｂは階層構造でもよいし、複数のページから構成されてもよい。また、ブロック化パラメータ入力画面１０２ｂは、ＧＵＩ（Graphical User Interface）で構成されていても、ＣＵＩ（Character User Inferface）で構成されていてもよい。また、ブロック化パラメータ入力画面１０２ｂで入力されたブロック化パラメータはＤＢやテキストに保存されていても、揮発性メモリに保存されていても構わない。

ブロック化部１０２は、例えば、入力テキスト９０１から話題の適切な切れ目に基づいてブロック化するので、ブロック化部１０２から出力された各ブロックのテキストには単一の話題が含まれていることが期待される。したがって、ブロックごとに要約および構造化を実施することで精度の高い要約を提示できる。そのため、ブロック単位処理部１０３の要約部１０３－１および構造化部１０３－２はそれぞれ、ブロック化部１０２から出力されるブロック化されたテキストの単位でテキストを処理する。これにより、単一の話題に対する要約および構造化を適切に実施することができる。

要約部１０３－１は、ブロック化部１０２からブロック化テキスト１０２ａを入力として受け付け、ブロック単位のテキストを要約して要約化テキスト１０３ａを生成し、構造化部１０３－２へ出力する。要約部１０３－１で用いられる要約の手法は、抽出型要約や抽象型要約など、様々な手段を用いることができる。要約部１０３－１において抽出型要約を要約手段として用いる場合は、例えば、重要な単語、句、および／または文を、ルールベースまたは機械学習などの手段で抽出することが考えられる。

図４は、要約部１０３－１の処理例を示す図である。ただしここでは、要約部１０３－１は抽象型要約を要約手段として用いている。図４に示す例では、要約部１０３－１にはブロック化テキスト１０２ａが入力され、要約部１０３－１は要約化テキスト１０３ａを出力する。要約化テキスト１０３ａに示すように、ブロック化テキスト１０２ａの各ブロック内のテキストは、元の文を書き直す形で要約されることで、流暢で簡潔かつ各ブロックの話題の重要な情報を保持した要約文を生成する。

例えば、ブロック化テキスト１０２ａの「発話：あーちょっと音量が音量があー聞きとれないな」、「発話：どうでしょ聞こえますか」、および「発話：聞こえるはいい聞こえるようになりました」で構成されるブロック１は、要約部１０３－１によって「発話者は声を聴きとれるようになった。」へと変換される。

また、ブロック化テキスト１０２ａの「発話：今日の午後からえー避難訓練がありますので」および「発話：放送が聞こえたら机の下に隠れる隠れる次点呼を点呼を行いますのでえー皆さんきちんと対応するように」で構成されるブロック２は、要約部１０３－１によって「今日の午後から避難訓練があるので、放送が聞こえたら机の下に隠れるようにしてください。次に点呼を行うので、皆さんきちんと対応するようにしてください。」へと変換される。

さらに、ブロック化テキスト１０２ａの「発話：ちょっといいですか私はリモートですので今日は参加できません」、「発話：そうですか」および「発話：わかりましたがマイクも避難マニュアルを読んでおいてください」で構成されるブロック３は、要約部１０３－１によって「リモート参加の方は今日は参加できないが、避難マニュアルを読んでおく必要があります。」へと変換される。

構造化部１０３－２は、要約部１０３－１が出力する、ブロック化されたテキストそれぞれに対する要約結果を入力として受け付け、要約結果９０２として出力する。構造化部１０３－２は、特定の手順に従って要約文を利用者にとって読みやすい形式へと変換する。以下に説明する図では、箇条書きおよび字下げによって、話題の中心文と補足文とを表現する構造化の例を示す。

なお、構造化の形式はどのような形態であってもよい。その場合、論述構造に基づく構造化を行う方法や、ブロックに含まれる各文それぞれに対して特定の意味的なラベルを表示する方法が考えられる。また、構造化は段落や箇条書きを含まなくてもよい。また、第１の実施の形態では構造化をテキストとして表現するが、図や表が含まれていても構わない。さらに、構造化部１０３－２において、構造化を実施する手法であればどのような手法が用いられてもよい。その場合は、構造化部１０３－２の実現には例えば、ルールベースの文分類器や、機械学習を用いた論述構造解析器などの手段が考えられる。

図５は、構造化部１０３－２の処理例を示す図である。図５に示す例では、構造化部１０３－２には要約化テキスト１０３ａが入力され、構造化部１０３－２は要約結果９０２を出力する。図５において、ブロック化された要約化テキスト１０３ａは、それぞれのブロックにおいてブロックの話題を中心とした構造化を行う。

このとき、例えば、要約化テキスト１０３ａのブロック１の「発話者は声を聴きとれるようになった。」は、議論に直接関係のある要約では無いから、構造化部１０３－２によって「［その他］発話者は声を聴きとれるようになった。」と構造化される。このとき、「［その他］」は構造化部１０３－２によって付与された意味的なラベルである。なお、ラベルの種類は「［その他］」だけでなく、どのような種類であってもよい。その場合、例えば、「主張」、「理由」、および「質問」などのラベルが考えられる。また、ラベルは単一のブロック、文、句、または単語に対して２つ以上付与されていてもよい。

次に、例えば、要約化テキスト１０３ａのブロック２の「今日の午後から避難訓練があるので、放送が聞こえたら机の下に隠れるようにしてください。次に点呼を行うので、皆さんきちんと対応するようにしてください。」は、構造化部１０３－２によって「＊今日の午後から避難訓練がある」、「 → 放送が聞こえたら机の下に隠れるようにしてください」、「 → 次に点呼を行う」、および「皆さんきちんと対応するようにしてください。」のように、話題と補足情報が字下げおよび箇条書きによって構造化された状態で表示される。

この構造化された状態の表示において、「＊」から始まる文は話題を代表する文である。「→ 」から始まる文は補足情報を表す文であり、かつ箇条書きとなっている。なお、「＊」や「→ 」などの構造化のための記号は一例に過ぎず、どのような記号であってもよい。また、記号でなくラベル、文字、単語、および図など、可読性を損なわない手段であればどのような形式であってもよい。

図６は、構造化部１０３－２の動作を決定する構造化パラメータの入力画面を示す図である。図６における構造化パラメータ入力画面１０３ｂは、構造化に必要なパラメータを調整するためのチェックボックスを有する。例えば、構造化パラメータ入力画面１０３ｂには、第４チェックボックス１０３ｂ４、第５チェックボックス１０３ｂ５、および第６チェックボックス１０３ｂ６が含まれる。第４チェックボックス１０３ｂ４は、文ごとに特定のラベルを表示する機能の選択に用いられる。第５チェックボックス１０３ｂ５は、論述構造解析を用いて箇条書きや字下げが行われる機能の選択に用いられる。第６チェックボックス１０３ｂ６は構造化によって表示される文の出現順に時系列を考慮する機能の選択に用いられる。

構造化パラメータ入力画面１０３ｂはさらに、前述の特定のラベルの種類を記入できる第１テキストボックス１０３ｂ７と、解析する論述構造の種類を指定できる第２テキストボックス１０３ｂ８と、を有する。なお、チェックボックスおよびテキストボックスは一例であり、項目またはユーザインタフェースの種類を問わない。また、構造化パラメータ入力画面１０３ｂは階層構造でもよいし、複数のページから構成されてもよい。また、構造化パラメータ入力画面１０３ｂは、ＧＵＩで構成されていても、ＣＵＩで構成されていても構わない。また、構造化パラメータ入力画面で入力された構造化パラメータはＤＢやテキストに保存されていても、揮発性メモリに保存されていても構わない。

上述した第１の実施の形態によれば、次の作用効果が得られる。
（１）テキスト要約システム１００を実現するコンピュータ６００が実行するテキスト要約方法は、ブロック化部１０２が実行するブロック化ステップと、要約部１０３－１が実行する要約ステップと、構造化部１０３－２が実行する構造化ステップとを含む。ブロック化ステップでは、入力テキスト９０１の入力を受け付け、テキストを話題単位で区切ったブロック化テキスト１０２ａを生成する。要約ステップでは、ブロック化テキスト１０２ａにおけるブロックごとにテキストの内容を要約して要約化テキスト１０３ａを出力する。構造化ステップでは、要約化テキスト１０３ａの内容を構造化して出力する。そのため、テキストを高精度に自動要約できる。本実施の形態の構成に至った背景を詳しく説明する。

近年の言語モデルによる抽象型要約の飛躍的な性能の向上に伴い、人間の要約に匹敵するような、流暢で精度の高い自動要約が可能になってきた。膨大なテキストからMasked Language ModelまたはPermutation Language Modelによる事前学習の枠組みで獲得されたパラメータを有する言語モデルを用いることで、従来の抽象型要約に比べて、流暢さ、一貫性、および論理性の観点で飛躍的な性能の向上が確認されている。発話テキストに対する抽象型要約の精度も格段に向上している。例えば、会話テキストから事前学習によって獲得される言語モデルＢＡＲＴを用いることで発話テキストの流暢な要約が可能になった。

そこで、従来の「構造化してから要約を行う」手法ではなく、言語モデルを用いた抽象型要約によって「要約してから構造化を行う」手法によって、要約の言語的および意味的不自然さを解決できると考えた。「要約してから構造化を行う」手法を実施することで、前述の課題を解決できるだけでなく、構造化の前に実施される要約の精度が高いため、後段の処理である構造化の精度も高くなる。したがって、利用者にとって読みやすく構造化された精度の高い要約結果を提示することができる。

言語モデルを用いた抽象型要約によって「要約してから構造化を行う」ためには、まず発話テキストを要約しなくてはならない。しかしながら、発話テキストは非常に長く、そのため発話テキストに含まれる単語や文字で構成されるトークンの列（トークン列）の長さが、言語モデルが受け付けることができる入力長を上回ることが少なくない。したがって、このとき、発話テキストを言語モデルを用いた抽象型要約に直接入力することができない。

さらに、会議では複数の議題が発生することがあり、時系列によって発話テキストの話題が大きく異なる。このような状況下では、抽象型要約を、そのまま発話テキストに対して適用してしまうと、話題が散逸した要約が生成される問題や、重要な話題が無視される問題がある。そのような話題の散逸した結果を提示することは自動要約の性能を低下させてしまう原因となる。その場合、例え構造化して表示したとしても、自動要約の性能が低ければ、構造化の精度も低くなってしまう。そのため、「要約してから構造化を行う」手法を実施する前に、発話テキストに対して話題に応じた適切なブロック化を行い、各ブロックにおいて要約を行った後に、構造化を行うことで、テキストを高精度に自動要約できる。

（２）構造化ステップでは、ブロック化ステップによってブロック化されたテキストの単位で構造化を行う。そのため、話題単位で区切られたブロックごとに構造化されるので内容の把握が容易となる。

（変形例１）
上述した第１の実施の形態では、要約部１０３－１は、ブロック単位で処理した。しかし、構造化部１０３－２は必ずしもブロック単位で処理しなくてもよい。たとえば、複数のブロックを１つのまとまりとして構造化を行ってもよい。

―第２の実施の形態―
図７を参照して、テキスト要約システムの第２の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、高度な抽象型要約が行われる点で、第１の実施の形態と異なる。

（システム構成）
図７は、第２の実施の形態におけるテキスト要約システム２００のシステム構成図である。テキスト要約システム２００は、入力部１０１、ブロック化部１０２、ブロック単位処理部１０３、抽象型要約部２０１、言語モデル２０１－１、および事前学習用テキスト２０１－２を含む。本実施の形態では、第１の実施の形態で示した要約部１０３－１を、言語モデル２０１－１を用いた抽象型要約へと変更することで、より流暢で精度の高い要約を行うことができる。すなわち第１の実施の形態における要約部１０３－１は、抽象型要約と抽出型要約の両方が含まれたが、本実施の形態では第１の実施の形態における抽象型要約よりも高精度な抽象型要約に限定されている。

抽象型要約部２０１は、ブロック化部１０２からブロック化されたテキストを受け付け、それぞれのブロック内に含まれるテキストに対して言語モデル２０１－１を用いた抽象型要約を実施する。なお、精度の高い抽象型要約を実施するためには言語モデル２０１－１を事前学習用テキスト２０１－２を用いて訓練し、訓練された言語モデル２０１－１を抽象型要約の生成器として利用する。事前学習用テキスト２０１－２は言語モデル２０１－１の事前学習用テキストである。事前学習用テキスト２０１－２はＷｅｂページや本に含まれるテキストから獲得されてもよいし、会話履歴などの利用者に固有のデータであってもよい。

言語モデル２０１－１には、ＢＥＲＴなどのTransformerエンコーダを用いた手法や、ＢＡＲＴなどのTransformerエンコーダとデコーダを組み合わせた手法が考えられるが、具体的な方法は限定しない。その場合、Transformerデコーダのみを用いた手法や、ＬＳＴＭを用いた手法などが考えられる。さらに、抽象型要約と抽出型要約を組み合わせた手法であってもよい。

上述した第２の実施の形態によれば、次の作用効果が得られる。
（３）要約ステップにおいて、言語モデル２０１－１を用いた抽象型要約を実施する。そのため、自動された流暢で高精度な要約が得られる。

―第３の実施の形態―
図８～図１０を参照して、テキスト要約システムの第３の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、発話者を特定する点で、第１の実施の形態と異なる。

（システム構成）
図８は、第３の実施の形態におけるテキスト要約システム３００のシステム構成図である。テキスト要約システム３００は、入力部１０１、発話者特定部３０１、発話者テーブル３０１－１、音声認識結果３０１－２、ブロック化部１０２、ブロック単位処理部１０３、要約部１０３－１、および構造化部１０３－２を含む。本実施の形態では、入力部１０１またはブロック化部１０２に対して発話者特定を行い、発話テキストの発声内容と各発話内容の主体となる人物を紐づける。発話者特定を行うことで、客観的視点から自動要約を実施することができる。

発話者特定部３０１は、入力部１０１から出力されるテキスト、またはブロック化部１０２から出力されるブロック化されたテキストを受け付け、テキストに含まれる発話内容と、その発言者を紐づけて出力する。また、識別した発話者を発話者テーブル３０１－１へ格納する。発話者特定部３０１は、テキスト情報だけなく音声認識結果３０１－２も用いて動作する。

音声認識結果３０１－２には発話テキストだけでなく、発話テキストと発話テキストの発話者を識別するための情報が格納されている。発話者を識別するための情報には様々な形式が考えられるが、例えば、音声波形や発話者の名前を含むテキストなどがある。また、発話者テーブル３０１－１はＤＢのような構造化された形式や、テキストなどの構造化されていない形式であっても構わない。さらに、発話者特定のための手段は、発話テキストと発話者を紐づける手段であれば何でもよい。このとき、例えば、ニューラルネットワークを用いた発話者の識別や、市販またはフリーの音声認識ソフトウェアを用いることが考えられる。

発話者特定部３０１によって発話者の情報が追加されたテキストは、第１の実施の形態と同様にしてブロックごとに要約部１０３－１へと入力される。そして、要約部１０３－１の出力が構造化部１０３－２によって構造化され、要約結果９０４として出力される。出力された要約結果９０４は、第１の実施の形態や第２の実施の形態とは異なり、発話者の情報が要約に記載されることで、客観的な要約が行われる。

図９は、発話者特定の一例を示す図である。図９では、入力部１０１から受け付けた入力テキスト９０１の各発話内容に対して、発話者特定部３０１によって発話者が識別される。そして、識別された発話者の情報を入力テキスト９０１に付加し、ブロック化部１０２への入力となる中間テキスト３０１ａを得る。また、識別された発話者の情報を発話者テーブル３０１ｂへと格納する。図９では、「ボブ」、「アリス」および「マイク」の３人の発話者が識別されている。

例えば、入力テキスト９０１の「発話：あーちょっと音量が音量があー聞きとれないな」および「発話：聞こえるはいい聞こえるようになりました」の２つの発話の発話者はボブであると識別されている。入力テキスト９０１の「発話：どうでしょ聞こえますか」および「発話：今日の午後からえー避難訓練がありますので」、「発話：放送が聞こえたら机の下に隠れる隠れる次点呼を点呼を行いますのでえー皆さんきちんと対応するように」、「発話：そうですか」および「発話：わかりましたがマイクも避難マニュアルを読んでおいてください」の５つの発話の発話者はアリスであると識別されている。入力テキスト９０１の「発話：ちょっといいですか私はリモートですので今日は参加できません」の発話者はマイクであると識別されている。

さらに、中間テキスト３０１ａに示されるように、入力テキスト９０１の各発話の先頭に発話者の名前が表示される形式でテキストを修正する。なお、中間テキスト３０１ａ以外にも、発話者の情報を付与するために様々な手段が考えられる。たとえば、発話者テーブル、ＤＢ、およびメタデータの少なくとも１つを含むファイルなどを用いることが考えられる。

図１０は、発話者特定後にブロック化および構造化を実施する一例を示す図である。図９の中間テキスト３０１ａにおいて、発話者が特定されたテキストをブロック化すると、図１０のテキスト３０１ｃのように、３つのブロックに分割される。なお、ブロック化は第１の実施の形態において説明したブロック化部１０２において実施される。図１０の要約化テキスト３０１ｄは、テキスト３０１ｃを要約部１０３－１を用いて要約した結果である。要約化テキスト３０１ｄは、図４の要約化テキスト１０３ａと異なり、アリス、ボブおよびマイクなどの発話者の情報が含まれているので、客観的な要約と言える。

上述した第３の実施の形態によれば、次の作用効果が得られる。
（４）テキスト９０１は１以上の人物の発話である。テキスト要約システム３００を実現するコンピュータ６００が実行するテキスト要約方法は、発話者特定部３０１が実行する発話者特定ステップを含む。発話者特定ステップは、入力テキスト９０１、またはブロック化テキスト１０２ａを処理対象として、発話者を推定する。要約部１０３－１が実行する要約ステップでは、発話者特定ステップにより推定された発話者の情報を用いて客観的な要約を生成する。具体的には要約部１０３－１は、図１０の下部に示すように発話者の情報が含まれた要約を生成できる。

―第４の実施の形態―
図１１を参照して、テキスト要約システムの第４の実施の形態を説明する。以下の説明では、第１の実施の形態と同じ構成要素には同じ符号を付して相違点を主に説明する。特に説明しない点については、第１の実施の形態と同じである。本実施の形態では、主に、テキストを翻訳する点で、第１の実施の形態と異なる。

図１１は、第４の実施の形態におけるテキスト要約システム４００のシステム構成図である。テキスト要約システム４００は、入力部１０１、ブロック化部１０２、順方向機械翻訳部４０１、ブロック単位処理部１０３、要約部１０３－１、構造化部１０３－２、および逆方向機械翻訳部４０２を含む。

テキスト要約システム４００に入力されるテキストの言語と、テキスト要約システム４００の出力を利用するユーザの母国語が異なる場合が想定される。この場合には例えば、入力テキストは英語で、出力となる要約結果を日本語にして利用者に提示することが考えられる。また、文分類や論述構造解析、またはルールベースによるブロック化、要約、または構造化に用いるソフトウェアまたはプログラムは、言語の制約がある、たとえば英語しか扱えない制約を有することがある。したがって、例えば、入力テキストが日本語であり、ブロック化部１０２、要約部１０３－１、および構造化部１０３－２で用いるソフトウェアが英語のみをサポートする場合には、自動要約が実現できない。本実施の形態では、第１の実施の形態で示したテキスト要約システムの入出力を多言語に対応させることができる。様々な言語において精度の高い要約を行うことができる。

順方向機械翻訳部４０１は、入力部１０１から出力されるテキストまたはブロック化部１０２から出力されるブロック化されたテキストを受け付け、テキストを特定の言語へと翻訳する。例えば、順方向機械翻訳部４０１は、日本語の入力テキストを受け付け、英語のテキストへと翻訳する。なお、順方向機械翻訳部４０１が扱う言語は、日本語から英語の対（日英対）でなく、任意の言語対であって構わない。さらに、機械翻訳に用いられる手段はどのような方法であっても構わない。例えば機械翻訳には、ニューラル翻訳モデル、オープンソースソフトウェア、および機械翻訳のＷｅｂサービスなどを用いることができる。

逆方向機械翻訳部４０２は、要約部１０３－１または構造化部１０３－２から出力されるテキストを受け付け、テキストを特定の言語へと翻訳する。例えば、逆方向機械翻訳部４０２は、英語のテキストを受け付け、日本語のテキストへと翻訳する。なお、逆方向機械翻訳部４０２が扱う言語は、英語から日本語への対（英日対）でなく、任意の言語対であって構わない。さらに、順方向機械翻訳部４０１と同様に、機械翻訳に用いられる手段はどのような方法であっても構わない。

本実施の形態では、順方向機械翻訳部４０１で対象とする言語対と、逆方向機械翻訳部４０２で対象とする言語対は対称性を前提として説明する。例えば、順方向機械翻訳部４０１において日英翻訳を、逆方向機械翻訳部４０２において英日翻訳を実施する場合には、日本語と英語が入力と出力で対称性を満たす。このとき、入力テキストと利用者に提示される要約結果は日本語で、実際の自動要約を行うブロック化部１０２、要約部１０３－１、および／または構造化部１０３－２は、英語で実施される。したがって、ブロック化部１０２、要約部１０３－１において利用可能なソフトウェアが対象とする言語が英語に限られていても、日本語のテキストの自動要約を実現することができる。

一方で、順方向機械翻訳部４０１および逆方向機械翻訳部４０２は、機能のＯＮ／ＯＦＦを任意に切り替えることができる。例えば、順方向機械翻訳部４０１の機能をＯＦＦとし、英語の入力テキストを受け付け、逆方向機械翻訳部４０２において英日翻訳を実施することで、英文テキストを日本語によって要約された結果を利用者に提示することができる。

上述した第４の実施の形態によれば、次の作用効果が得られる。
（５）テキスト要約システム４００が実行するテキスト要約方法は、テキストまたはブロック化テキストに対して翻訳を施し、要約ステップにテキストとは異なる言語に翻訳されたテキストを入力する順方向翻訳ステップ、および要約ステップまたは構造化ステップの出力に対して翻訳を施す逆方向翻訳ステップのうち一方を含む。そのため、入力テキスト９０１とは異なる言語で要約結果９０２を出力できる。また、各処理部が対応可能な言語にあわせて、翻訳のタイミングをブロック化部１０２の処理前、要約部１０３－１の処理前、および構造化部１０３－２の処理前の任意に選択できる。

（６）テキスト要約システム４００が実行するテキスト要約方法は、テキストまたはブロック化テキストに対して翻訳を施し、要約ステップにテキストとは異なる言語に翻訳されたテキストを入力する順方向翻訳ステップと、要約ステップまたは構造化ステップの出力に対して翻訳を施す逆方向翻訳ステップと、を含む。そのため、入力テキスト９０１と要約結果９０２が同一の場合でも、ブロック化部１０２、要約部１０３－１、および構造化部１０３－２が対応可能な言語と、入力テキスト９０１および要約結果９０２の言語の差異を吸収できる。

（ハードウェア構成）
図１２は、これまで説明した第１～第４の実施の形態におけるテキスト要約システム１００、２００、３００および４００を実現するコンピュータ６００のハードウェア構成図である。コンピュータ６００は、入力デバイス６０１、出力デバイス６０２、通信インタフェース６０３、記憶デバイス６０４、プロセッサ６０５、およびバス６０６を備える。入力デバイス６０１、出力デバイス６０２、通信インタフェース６０３、記憶デバイス６０４、プロセッサ６０５、およびバス６０６は、バス６０６によって互いに接続され、通信する。

入力デバイス６０１は、利用者がテキスト要約システム１００、２００、３００および４００に処理対象のテキストや命令を入力する装置である。入力デバイス６０１からの入力は、記憶デバイス６０４に格納されてもよい。入力デバイス６０１には、例えば、キーボード、タッチパネル、マウス、マイク、カメラ、およびスキャナがある。

出力デバイス６０２は、テキスト要約システム１００、２００、３００および４００が出力する要約結果を利用者に提示する。出力デバイス６０２には、例えば、ディスプレイ、プリンタ、またはスピーカーなどがある。出力デバイスがディスプレイまたはプリンタの場合、例えば、テキスト要約システム１００が出力する要約結果９０２を表示することができる。また、出力デバイス６０２は、要約結果９０２をスピーカーを通して音声読み上げすることもできる。出力デバイス６０２がディスプレイの場合は、例えば、図３に示したブロック化パラメータ入力画面１０２ｂや、図６に示した構造化パラメータ入力画面１０３ｂを表示することができる。

通信インタフェース６０３は、ネットワークと接続され、コンピュータ６００の動作に必要な様々なデータの送受信を行う。通信インタフェース６０３を介してテキスト要約システム２００に情報が入出力される場合には、テキスト要約システム２００入力デバイス６０１および出力デバイス６０２を備えなくてもよい。また、テキスト要約システム１００、２００、３００および４００はネットワークを介して任意の端末からデータを送受信できる。

プロセッサ６０５は、コンピュータ６００を任意の命令セットに従って演算し、プログラムを実行する。プロセッサ６０５は、また、単一または複数の演算装置、および複数の処理装置を含むことができる。プロセッサ６０５は、任意の命令セットに従って動作する演算装置であればどのようなデバイスでも構わない。このとき、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Units）を用いたデバイスが考えられる。他にも、例えば、マイクロプロセッサ、デジタル信号プロセッサ、マイクロ計算機、マイクロコントローラ、ステートマシン、ロジック回路、チップオンシステム、または制御指示など、によって信号操作を行う任意の装置として実装されていても構わない。

記憶デバイス６０４は、プロセッサ６０５の作業領域となる。記憶デバイス６０４は、テキスト要約システム１００、２００、３００および４００を実行するプログラム、およびデータを記録する。具体的に記憶デバイス６０４は、不揮発性装置、または揮発性装置を備える記憶媒体である。記憶デバイス６０４は、記憶媒体であればどのような媒体であってもよい。さらに、記憶デバイス６０４は、コンピュータ６００のバスによって接続されていても、通信インタフェースを通して接続されていてもよい。記憶デバイス６０４は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＨＤＤ（Hard Disk Drive）、またはＳＳＤ（Solid State Drive）などを用いることができる。

具体的には、例えば、図１などに示したテキスト要約システム１００、２００、３００および４００の各処理部は、記憶デバイス６０４に記憶された一時的または非一時的なプログラムをプロセッサ６０５が解釈し、解釈することで得られる命令セットの演算を実行することによって実現される。また、図１などに示したテキスト要約システム１００、２００、３００および４００の各処理部において用いられる、入力テキスト９０１、言語モデル２０１－１、事前学習用テキスト２０１－２、発話者テーブル３０１－１、音声認識結果３０１－２、要約結果９０２、および要約結果９０４の各データは、例えば、記憶デバイス６０４に格納される。

テキスト要約システム１００、２００、３００および４００において、例えば、プロセッサ６０５により実行されるプログラムまたは命令セットは、ＯＳ（Operating System）やあらゆる応用ソフトウェアを含むことができる。また、テキスト要約システム１００、２００、３００および４００において、入力プログラム、ブロック化プログラム、要約プログラム、構造化プログラム、抽象型要約プログラム、発話者特定プログラム、順方向機械翻訳プログラム、および逆方向機械翻訳プログラムなどの各プログラムを含むことができる。

例えば、図１などに示した実施例のテキスト要約システム、２００、３００および４００において、プロセッサ６０５は、これらプログラムを実行し、動作し、入力部１０１、ブロック化部１０２、要約部１０３－１、および構造化部１０３－２として機能できる。他にも、例えば、図７、図８、および図１１に示した実施例のテキスト要約システム２００、３００および４００において、プロセッサ６０５は、前述のプログラムを実行し、動作し、抽象型要約部２０１、発話者特定部３０１、順方向機械翻訳部４０１および逆方向機械翻訳部４０２として機能できる。

図１２において、ＯＳを含むあらゆるソフトウェアおよびテキスト要約システムのプログラムは、記憶デバイス６０４の記憶領域に格納される。なお、各プログラムは、予め可搬型記録媒体に記録されていてもよい。その場合、媒体読み取り装置や通信インタフェースによって対象のプログラムを可搬型記録媒体から読み取る。または、通信媒体を介してＯＳやソフトウェアおよびプログラムを取得してもよい。

コンピュータ６００の実施形態には、様々な形式が考えられる。例えば、テキスト要約システムは、単一または複数のプロセッサを含み、単一または複数の記憶デバイスを含む１以上のコンピュータに実装することができる。すなわち図１２ではテキスト要約システム１００が複数のコンピュータ６００により構成されてもよい。複数のコンピュータからなるシステムに実装する場合は、テキスト要約システムの動作に必要な各データは、コンピュータ同士が相互または部分的に接続されたコンピュータネットワークを介して通信する。この場合、テキスト要約システムに含まれる複数の処理部の一部またはすべてが単一の計算機に実装され、他の一部またはすべてが前述のコンピュータ以外のコンピュータに実装されてもよい。

上述した各実施の形態および変形例において、機能ブロックの構成は一例に過ぎない。別々の機能ブロックとして示したいくつかの機能構成を一体に構成してもよいし、１つの機能ブロック図で表した構成を２以上の機能に分割してもよい。また各機能ブロックが有する機能の一部を他の機能ブロックが備える構成としてもよい。

上述した各実施の形態および変形例は、それぞれ組み合わせてもよい。上記では、種々の実施の形態および変形例を説明したが、本発明はこれらの内容に限定されるものではない。本発明の技術的思想の範囲内で考えられるその他の態様も本発明の範囲内に含まれる。

１００、２００、３００、４００…テキスト要約システム
１０１…入力部
１０２…ブロック化部
１０３－１…要約部
１０３－２…構造化部
２０１－１…言語モデル
３０１…発話者特定部
４０１…順方向機械翻訳部
４０２…逆方向機械翻訳部

Claims

コンピュータが実行するテキスト要約方法であって、
テキストの入力を受け付け、前記テキストを話題単位でブロックに区切ったブロック化テキストを生成するブロック化ステップと、
前記ブロック化テキストにおける前記ブロックごとに前記テキストの内容を要約して要約化テキストを出力する要約ステップと、
前記要約化テキストの内容を構造化して出力する構造化ステップと、を含むテキスト要約方法。
請求項１に記載のテキスト要約方法であって、
前記要約ステップにおいて、言語モデルを用いた抽象型要約を実施する、テキスト要約方法。
請求項１に記載のテキスト要約方法であって、
前記テキストは１以上の人物の発話であり、
前記テキスト、または前記ブロック化テキストを処理対象として、発話者を推定する発話者特定ステップをさらに含み、
前記要約ステップでは前記発話者特定ステップにより推定された前記発話者の情報を用いて客観的な要約を生成する、テキスト要約方法。
請求項１に記載のテキスト要約方法であって、
前記テキストまたは前記ブロック化テキストに対して翻訳を施し、前記要約ステップに前記テキストとは異なる言語に翻訳されたテキストを入力する順方向翻訳ステップ、および前記要約ステップまたは前記構造化ステップの出力に対して翻訳を施す逆方向翻訳ステップのうち一方をさらに含む、テキスト要約方法。
請求項１に記載のテキスト要約方法であって、
前記テキストまたは前記ブロック化テキストに対して翻訳を施し、前記要約ステップに前記テキストとは異なる言語に翻訳されたテキストを入力する順方向翻訳ステップと、
前記要約ステップまたは前記構造化ステップの出力に対して翻訳を施す逆方向翻訳ステップと、をさらに含む、テキスト要約方法。
請求項１に記載のテキスト要約方法であって、
前記構造化ステップでは、前記ブロック化ステップによってブロック化された前記テキストの単位で構造化を行う、テキスト要約方法。
テキストの入力を受け付け、前記テキストを話題単位でブロックに区切ったブロック化テキストを生成するブロック化部と、
前記ブロック化テキストにおける前記ブロックごとに前記テキストの内容を要約して要約化テキストを出力する要約部と、
前記要約化テキストの内容を構造化して出力する構造化部と、を含むテキスト要約システム。