JP6466952B2

JP6466952B2 - 文章生成システム

Info

Publication number: JP6466952B2
Application number: JP2016551422A
Authority: JP
Inventors: 孝介柳井; 利昇三好; 利彦柳瀬; 佐藤　美沙; 美沙佐藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-10-01
Filing date: 2014-10-01
Publication date: 2019-02-06
Anticipated expiration: 2034-10-01
Also published as: CN106663087A; JPWO2016051551A1; US20170286408A1; US10496756B2; WO2016051551A1; EP3203383A1; CN106663087B; EP3203383A4

Description

本発明は、議題に対する意見文を自動で生成するシステムに関する。

自然言語からなる文章が入力され，入力された文章を解釈し，自然言語のデータからなる知識源から関連する情報を収集し，収集した情報を解釈し，組み合わせるなど加工したうえで，提示するシステムの有用性が高まってきている。このようなシステムの最近最も注目を集めているシステムの例として，質問回答（ｑｕｅｓｔｉｏｎ−ａｎｓｗｅｒｉｎｇ）システムがある。

たとえば、特許文献１には，レキシカルアンサータイプ（ＬＡＴ）を決定し，検索し，検索結果に対しＬＡＴを使って解析することで，質問回答システムを構築する方法が示されている。

ＵＳ８３３２３９４

しかし、ディベートのように、正解となる回答が一つではなく、それぞれの立場によって意見が変わるような場合には、特許文献１の技術で回答を生成することは困難である。ディベートにおいては、議題に対する意見を述べた論述文を考えた場合，単純な正解はなく，立場によって考慮すべき価値が異なるため、ＬＡＴを用いて解析しても回答を一つに絞り込むことはできない。

また、特許文献１の技術では、回答として単一の名詞句または文を出力するのみで、複数の文から構成される文章を出力することもできない。これらの課題は，上記で述べた従来技術では実現不可能である。

本発明は、上記に鑑みてなされたものであって、本発明の目的は、ディベートで使われるような，議題に対する意見を述べた論述文をシステムで自動的に生成することである。

上記課題を解決するために、例えば請求の範囲に記載の構成を採用する。本願は上記課題を解決する手段を複数含んでいるが、その一例を挙げるならば、議題に対する意見文を出力する文章生成システムであって、議題が入力される入力部と、議題を解析し、議題の極性と検索に用いるキーワードとを判定する議題解析部と、キーワードと、議論における争点を示す争点語とを用いて記事を検索する検索部と、意見文を生成する際に用いる争点を決定する争点決定部と、検索部が出力した記事から、争点について述べている文を抽出する文抽出部と、文を並び替えることにより文章を生成する文並び替え部と、文章を評価する評価部と、文章に対して、適切な接続詞を挿入する言い換え部と、複数の文章のうち、最も評価の高い文章を意見文として出力する出力部と、を有することを特徴とする。

あるいは、議題に対する意見文を出力する文章生成方法であって、議題が入力される第１ステップと、議題を解析し、議題の極性と検索に用いるキーワードとを判定する第２ステップと、キーワードと、議論における争点を示す争点語とを用いて記事を検索する第３ステップと、意見文を生成する際に用いる争点を決定する第４ステップと、第３ステップで出力された記事から、争点について述べている文を抽出する第５ステップと、文を並び替えることにより文章を生成する第６ステップと、文章を評価する第７ステップと、文章に対して、適切な接続詞を挿入する第８ステップと、複数の文章のうち、最も評価の高い文章を意見文として出力する第９ステップと、を有することを特徴とする文章生成方法。

争点について述べている文を抽出し，並び替えることで，立場に応じた適切な意見を述べた意見文を生成することができる。

本発明に係る文章生成システムを示す図。テキストアノテーションデータを示す図。争点オントロジの例を示す図。議題解析部１０３の動作を示す図。検索部１０４の動作を示す図。争点決定部１０５の動作を示す図。文抽出部１０６での動作を示す図。文抽出部１０６におけるスコア算出条件の一例を示す図。文並び替え部１０７の動作を示す図。評価部１０８の動作を示す図。言い換え部１０９の動作を示す図。本発明に係るディベートシステムのハードウェア構成例を示す図。

以下、図面を参照して本発明の実施の形態を説明する。
［第１の実施の形態］
以下、本発明の第１の実施の形態の文章生成システムについて説明する。本発明の第１の実施の形態の文章生成システムは、９つのモジュールが結合された生成システムと，データ管理システムからなるシステムである。具体的なハードウェア構成の例は図１２に示すとおり、入力装置１２０２、出力装置１２０３、各モジュールを実行するプログラムが記録されたメモリ１２０５、テキストデータＤＢやテキストアノテーションデータＤＢ１１３等を含む記憶装置１２０７で構成される。

図１はシステムの全体像を表したものである。１００は，議題が入力されると，その議題に対する意見を述べた論述文を出力する生成システムである。１０１はデータ管理システムであり，あらかじめデータ処理されたデータが保存され，システム１００からアクセス可能になっているシステムである。

システム１００では，９つのモジュールを順に実行する。まず入力部１０２で，ユーザから議題の入力を受付ける。さらに、議題に対して肯定的な意見を生成したいか、否定的な意見を生成したいかについての入力を受け付けても良い。このように、生成する文章の立場を明確にすることで、本システムをディベートのような議論の場で用いることも可能になる。

次に議題解析部１０３で，議題を解析し，議題の極性と検索に用いるキーワードを判定する。続いて，検索部１０４で，キーワードと，ディベートにおける争点を示す争点語とを用いて記事を検索する。例えば議題が「カジノを禁止すべき」というものだった場合、キーワードとしては名詞句である「カジノ」があげられる。さらに、極性を判定することで、「カジノ」に対して肯定的な争点語を用いるべきか、否定的な争点語を用いるべきかを決定することができる。ここでいう争点語とは、図３に示す争点オントロジ中の単語全てを指し、とくに「争点」と言った場合には、３００に記載される「議論における論点となる価値観をあらわした単語」をいう。また、「促進語」とは３０１に記載される「争点を促進する事象」を言う。一方、「抑制語」とは３０２に記載される「争点を抑制する事象」を言う。

上記の議題に対し、肯定的な意見を出力したい場合には、キーワードとして「カジノ」を、争点語としてはカジノを抑制する「抑制語」を選択して検索を行う。ここでは、議題が「カジノ」に対して否定的であるため、争点語としては「抑制語」を用いる処理としている。図３では抑制語は複数記載されているが、検索においては、このように争点語とキーワードとを合わせ検索することにより、カジノに対する是否を述べている記事を検索することができる。議題から抽出したキーワードのみでは、例えばカジノについての宣伝記事や、カジノに行った感想のみを述べているブログ記事のように、ディベートにおいて考慮する必要のない記事等も多く検索結果に含まれてしまい、適切に検索することができない。

続いて，争点決定部１０５で，出力された記事を分類し，意見を生成する際に用いる争点を決定する。続いて，文抽出部１０６で，出力した記事から争点について述べている文を抽出する。続いて，文並び替え部１０７で，抽出された文を並び替えることにより文章を生成する。続いて，評価部１０８で，生成された文を評価する。続いて，言い換え部１０９で，適切な接続詞を挿入し，不要な表現を削除する。続いて，出力部１１０で，最も評価の高い文章を，意見を述べた論述文として出力する。

データ管理システム１０１は，４つのデータベース（ＤａｔａＢａｓｅ）とインターフェース／構造化部１１から構成される。インターフェースＤＢ１１１は，データベースに管理されているデータに対するアクセス手段を提供する。テキストデータＤＢ１１２は，ニュース記事などのテキストデータである，テキストアノテーションデータＤＢ１１３は，テキストデータＤＢ１１２に付与されたデータである。検索用インデックスＤＢ１１４は，テキストデータＤＢ１１２とテキストアノテーションデータＤＢ１１３を検索可能にするためのインデックスである。争点オントロジＤＢ１１５は，ディベートでよく議論になる争点と，その関連語を紐づけたデータベースである。

次に、データ管理システム１０１を説明した後，システム１００の各部を説明する。

テキストデータＤＢ１１２に蓄積されているデータは，ニュース記事などのテキストデータであり，このテキストデータの中から意見文を構成するために適切なセンテンスを抜き出し，抜き出したセンテンスを並べることで論述文を生成する。従ってテキストデータＤＢ１１２は出力される論述文を構成するセンテンスのデータソースとなる。英語と日本語のニュース記事をインターネットからクローリングしてテキストデータＤＢ１１２を構成する。それぞれのデータには、例えば識別子としてｄｏｃ＿ｉｄを振って管理する。

テキストアノテーションデータＤＢ１１３は，テキストデータＤＢ１１２に付与されたデータを蓄積したＤＢである。図２にテキストアノテーションデータの例を示す。ｉｄはアノテーションにユニークな識別子である。ｄｏｃ＿ｉｄはテキストデータＤＢ１１２に格納されているニュース記事のｉｄを表す。”ａｎｎｏｔａｔｉｏｎ”は，アノテーションの種類を表す。アノテーションの種類については後述する。“ｂｅｇｉｎ”はアノテーションの開始位置で，図２の例は，このアノテーションがテキストデータのｄｏｃ＿ｉｄが００１１２２の記事の２４文字目から始まっていることを意味する。“ｅｎｄ”はアノテーションの終了位置で，図２の例は，このアノテーションがテキストデータＤＢ１１２のｄｏｃ＿ｉｄが００１１２２の記事の２９文字目で終了していることを意味する。“ｒｅｆ”は他のアノテーションへの参照であり，図２の例は，このアノテーションがｉｄが１２５１２３であるアノテーションに“ａｒｇ０”という名前のリンクを，またｉｄが１２５１２４であるアノテーションに“ａｒｇ１”という名前のリンクを持っていることを意味する。“ａｔｔｒ”はアノテーションが持つ属性であり，任意のハッシュ値を持つ。

テキストデータとして，「Ｅｘｐｅｒｔｓｓａｉｄｔｈａｔｃａｓｉｎｏｓｄｒａｍａｔｉｃａｌｌｙｉｎｃｒｅａｓｅｔｈｅｎｕｍｂｅｒｏｆｃｒｉｍｅｓ．」を例に、テキストアノテーションデータの付し方を説明する。この文は，カジノがもたらすデメリットを述べているため，カジノに関する論述文を生成するときには有用である。ここで「ｉｎｃｒｅａｓｅ」という単語より，「ｃａｓｉｎｏｓ」が「ｔｈｅｎｕｍｂｅｒｏｆｃｒｉｍｅｓ」を促進していることが分かるので，「ｉｎｃｒｅａｓｅ」に”ｐｒｏｍｏｔｅ”というアノテーションを付ける。ここで「ｉｎｃｒｅａｓｅ」は，テキストデータ「Ｅｘｐｅｒｔｓｓａｉｄｔｈａｔｃａｓｉｎｏｓｄｒａｍａｔｉｃａｌｌｙｉｎｃｒｅａｓｅｔｈｅｎｕｍｂｅｒｏｆｃｒｉｍｅｓ．」の４０文字目から４７文字目に書かれているので，“ｂｅｇｉｎ”＝４０，“ｅｎｄ”＝４７となる。また促進する主体は「ｃａｓｉｎｏｓ」であるので，「ｃａｓｉｎｏｓ」に“ｐｒｏｍｏｔｅ＿ａｒｇ０”という別のアノテーションを付ける。この「ｃａｓｉｎｏｓ」に付けた“ｐｒｏｍｏｔｅ＿ａｒｇ０”のｉｄが１２５１２３であると想定する。アノテーションのｉｄはシステムがユニークになるように自動的に付与する。この場合，「ｉｎｃｒｅａｓｅ」と「ｃａｓｉｎｏｓ」の関係がわかるように，「ｉｎｃｒｅａｓｅ」の“ｐｒｏｍｏｔｅ”アノテーションから「ｃａｓｉｎｏｓ」の“ｐｒｏｍｏｔｅ＿ａｒｇ０”アノテーションにリンクを張る。これが，図２の「“ａｒｇ０”：［“１２５１２３”］」が意味するところである。また「ｄｒａｍａｔｉｃａｌｌｙ」から促進する度合いが強いことが推定できるため，“ｄｅｇｒｅｅ”＝４とする。“ａｔｔｒ”のｓｕｒｆａｃｅはテキストデータ上の表現としてどのような単語が用いられているかを示すものであり，この例の場合，ｐｒｏｍｏｔｅのテキストデータ上の表現は「ｉｎｃｒｅａｓｅ」であるため，“ｓｕｒｆａｃｅ”＝ｉｎｃｒｅａｓｅとなる。

アノテーションの種類としては，ｐｏｓｉｔｉｖｅ，ｎｅｇａｔｉｖｅ，ｐｒｏｍｏｔｅ，ｐｒｏｍｏｔｅ＿ａｒｇ０，ｐｒｏｍｏｔｅ＿ａｒｇ１，ｓｕｐｐｒｅｓｓ，ｓｕｐｐｒｅｓｓ＿ａｒｇ０，ｓｕｐｐｒｅｓｓ＿ａｒｇ１がある。ｐｏｓｉｔｉｖｅは，プラスの価値を持つ事柄で，自然言語上の表現は，例えば，ｂｅｎｅｆｉｔ，ｅｔｈｉｃ，ｈｅａｌｔｈなどである。ｎｅｇａｔｉｖｅは，マイナスの価値を持つことがらで，自然言語上の表現は，例えば，ｄｉｓｅａｓｅ，ｃｒｉｍｅ，ｒｉｓｋなどである。ｐｒｏｍｏｔｅは促進を表す表現で，例えば，ｉｎｃｒｅａｓｅ，ｉｎｖｏｋｅ，ｉｍｐｒｏｖｅなどである。ｐｒｏｍｏｔｅ＿ａｒｇ０は促進する主体，ｐｒｏｍｏｔｅ＿ａｒｇ１は促進される事象であり，先に説明したようにｐｒｏｍｏｔｅアノテーションが付与されるときに，その周囲の構文情報から識別されて付与される。同様に，ｓｕｐｐｒｅｓｓは抑制を表す表現で，例えば，ｄｅｃｒｅａｓｅ，ｓｔｏｐ，ｗｏｒｓｅｎなどである。ｓｕｐｐｒｅｓｓ＿ａｒｇ０は抑制する主体，ｓｕｐｐｒｅｓｓ＿ａｒｇ１は抑制される事象であり，先に説明したようにｓｕｐｐｒｅｓｓアノテーションが付与されるときに，その周囲の構文情報から識別されて付与される。

これらのアノテーションは，テキストデータに対し，上記で説明したように構文解析の結果にあらかじめ作成したルールを適用して生成することができる。またＣＲＦ＋＋などのシーケンシャルラベリングと呼ばれる機械学習手法等を用いて生成することができる。

検索用インデックスＤＢ１１４は，テキストデータＤＢ１１２およびテキストアノテーションデータＤＢ１１３を検索できるようにするためのインデックスデータである。キーワード検索用のインデックスデータとしては，類似検索用に各テキストデータの特徴的な語の統計量を、例えばＴＦ−ＩＤＦを用いて計算し，そのベクトル値を，類似検索用のインデックスとして格納しておく。あるいは、Ｓｏｌｒなどのソフトウェアを使い，Ｓｏｌｒのインデックス生成用ＡＰＩに，テキストデータやテキストアノテーションデータを入力することで，自動的に検索用インデックスを生成することもできる。

争点オントロジＤＢ１１５は，ディベートでよく議論になる争点と，その関連語を紐づけたデータベースである。図３は争点オントロジＤＢ１１５に蓄積される争点オントロジの例を示す。カラム３００はディベートでよく議論になる争点の価値を表している。カラム３０１はその価値を促進するものを表している。カラム３０２はその価値を抑制するものを表している。例えば，争点の例としてｈｅａｌｔｈがある。これは時折，ディベートでは健康という価値が増すか減るかの観点で争点として意見を戦わせることを意味する。図３の例では，ｈｅａｌｔｈの価値を促進するものとして，ｅｘｅｒｃｉｓｅ，ｄｏｃｔｏｒ，ｏｒｇａｎｄｏｎａｔｉｏｎ，ｍｅｄｉｃｉｎｅなどがある。またｈｅａｌｔｈの価値を抑制するものとして，ｊｕｎｋｆｏｏｄ，ｔａｂａｃｃｏ，ａｌｃｈｏｈｏｌ，ｓｍｏｋｉｎｇなどがある。争点オントロジは高々，５０行程度のデータベースであり，過去のディベートなどを参考に，人手で作成する。

インターフェース部１１１は，テキストデータＤＢ１１２，テキストアノテーションデータＤＢ１１３，検索用インデックスＤＢ１１４，争点オントロジＤＢ１１５へのアクセス手段を提供するインターフェースであり，ＲＥＳＴなどの技術で実装される。

次に、システム１００の各部について説明する。

入力部１０２には，ユーザから議題を受け取る。ＷｅｂブラウザなどのＧＵＩから議題が入力される。議題の例としては，「Ｗｅｓｈｏｕｌｄｂａｎｓｍｏｋｉｎｇｉｎｔｒａｉｎｓｔａｔｉｏｎｓ．（駅での喫煙を禁止すべきか）」などである。また、後述する出力文候補の数などの設定が入力されるようにしても良い。

図４は議題解析部１０３の動作を示すフローチャートである。Ｓ４００でＯｐｅｎＮＬＰ等を使って，議題に含まれる語のＰＯＳタグを推定し，また議題の文の構文を解析し，構文解析木を生成する。Ｓ４０１で中心となる動詞を抽出する。構文解析木を辿って，動詞を探し，最もＲＯＯＴに近い位置にある動詞を中心的な動詞として抽出する。また動詞に辿りつくまでにＮｏｔなどの否定表現が出てきた回数をカウントし，回数が奇数であれば否定表現あり，偶数であれば（２重否定など）否定表現なし，とする。例えば，議題「Ｗｅｓｈｏｕｌｄｂａｎｓｍｏｋｉｎｇｉｎｔｒａｉｎｓｔａｔｉｏｎｓ．」の場合，動詞としてｂａｎが抽出され，否定表現がｂａｎにはかかっていないので，否定表現なしとなる。

次にＳ４０２で辞書と照合し，議題の極性を判定する。辞書には，ａｃｃｅｐｔ，ａｇｒｅｅなど，対象に対して肯定的な立場をとることを表す動詞と，ｂａｎ，ａｂａｎｄｏｎなど，対象に対して否定的な立場をとることを表す動詞が，区別されて格納されている。今の例の場合，ｂａｎは辞書と照合することにより，否定的な立場をとる動詞と判定される。これと，先に抽出した否定表現のあるなしを合わせて，最終的な議題のテーマに対する極性を判定する。今の例では，極性は否定的（ｎｅｇａｔｉｖｅ）と判定される。一方，「Ｗｅｓｈｏｕｌｄｎｏｔｂａｎｓｍｏｋｉｎｇ．」という議題の場合には，否定表現ありで，かつｂａｎが否定的な立場をとる表現なので，極性は肯定的（ｐｏｓｉｔｉｖｅ）と判定される。ここで判定された極性は，次のＳ４０３で抽出される名詞句に対する極性を意味する。

続いて，Ｓ４０３で，議題のテーマとなる名詞句を抽出する。議題の構文解析木の中の，“ＲＯＯＴ”，“Ｓ”，“ＮＰ”，“ＶＰ”，“ＳＢＡＲ”の構文タグを持つ部分木のみをＲＯＯＴから辿り，出てきた名詞句を抜き出す。例えば，議題「Ｗｅｓｈｏｕｌｄｂａｎｓｍｏｋｉｎｇｉｎｔｒａｉｎｓｔａｔｉｏｎｓ．」の場合，ｓｍｏｋｉｎｇが抽出される。続いてＳ４０４で文脈情報を抽出する。議題に含まれる語の内，ＰＯＳタグがＣＣ，ＦＷ，ＪＪ，ＪＪＲ，ＪＪＳ，ＮＮ，ＮＮＰ，ＮＮＰＳ，ＮＮＳ，ＲＰ，ＶＢ，ＶＢＤ，ＶＢＧ，ＶＢＮ，ＶＢＰ，ＶＢＺであり，かつＳ４０１とＳ４０３で抽出されなかった単語を文脈情報として抽出する。例えば，議題「Ｗｅｓｈｏｕｌｄｂａｎｓｍｏｋｉｎｇｉｎｔｒａｉｎｓｔａｔｉｏｎｓ．」の場合，ｔｒａｉｎ，ｓｔａｔｉｏｎが抽出される。

続いてＳ４０５で同義語展開をする。Ｓ４０１，Ｓ４０３，Ｓ４０４で抽出した語の同義語を，辞書を使って算出する。辞書には例えばＷｏｒｄＮｅｔなどを用いてもよい。例えば，議題「Ｗｅｓｈｏｕｌｄｂａｎｓｍｏｋｉｎｇｉｎｔｒａｉｎｓｔａｔｉｏｎｓ．」の場合，名詞句としてｓｍｏｋｉｎｇが抽出されていたが，この同義語として，ｓｍｏｋｅ，ｆｕｍｅが算出される。同様に，Ｓ４０１で抽出された動詞やＳ４０４で抽出された文脈情報を表す単語についても同義語が算出される。以上より，議題解析部１０３では，議題から，中心となる動詞，極性，テーマとなる名詞句，文脈情報とそれらの同義語が抽出される。これらは後段の部で利用される。

図５は検索部１０４の動作を示すフローチャートである。Ｓ５００で議題から抽出した名詞句を含む記事を，テキストデータＤＢ１１２から、検索用インデックスＤＢ１１４のキーワード検索用のインデックスを用いて検索し、上位１０００件を取り出す。Ｓ５０１で，同様に，議題から抽出した名詞句と，文脈情報をともに含む記事を，テキストデータＤＢ１１２から検索用インデックスＤＢ１１４のキーワード検索用のインデックスを使って検索して上位１０００件を取り出す。Ｓ５０１は，Ｓ５００にキーワードとして文脈情報を加えた検索である。続いてＳ５０２で，論題内の特徴的な語の統計量であるＴＦ−ＩＤＦを計算し，検索用インデックスＤＢ１１４の類似検索用のインデックスの各記事のＴＦ−ＩＤＦベクトルとのユークリッド距離の近い１０００件を抽出する。３つの異なるバリエーションの検索をすることで，検索漏れをなくす効果がある。

続いて，Ｓ５０３で抽出した３０００件の記事を以下の式でスコアリングする。

スコア＝（議題から抽出した名詞句が出現する回数）
＋（争点オントロジ内の単語が出現する回数）
− （記事の古さ）
ここで記事の古さは，最新年が２０１４年とすると，２０１４年に発行された記事は０，２０１３年に発行された記事は１，２０１２年に発行された記事は２となる。続いてＳ５０４で，スコアの高い上記１００件の記事を出力する。このように、単語の出現回数が高い記事のスコアを上げることで、議題や争点との関係性が高い記事が発見できる。また、記事の古さについてもスコアをつけることで、より新しいデータが反映された記事を発見でき、最終的に出力する文章の説得力を増すことができる。

図６は争点決定部１０５の動作を示すフローチャートである。図６のフローチャートは，検索部１０４が出力した記事のそれぞれに対して実行する。Ｓ６００で争点オントロジのすべての争点ｋに対してループする。図３の例でいえば，ｋ＝ｈｅａｌｔｈ，ｆｏｒｔｕｎｅ，ｓａｆｅｔｙ…と順にループする。Ｓ６０１では，争点オントロジ内の，争点ｋ，ｋを促進するものを表す語，ｋを抑制するものを表す語のその記事内でのＴＦ−ＩＤＦを求める。実際には，検索部１０４で類似検索に用いたＴＦ−ＩＤＦベクトルに含まれるため，検索用インデックスＤＢ１１４から該当する値を取得する。ＴＦ−ＩＤＦは単語ごとに値があるため，争点ｋ，ｋを促進するものを表す語，ｋを抑制するものを表す語で，複数のＴＦ−ＩＤＦ値がある。Ｓ６０２で，これらのＴＦ−ＩＤＦ値の和を算出し，Ｓｋとする。Ｓ６０３でループを終了する。Ｓ６０４でＳｋが最大となるｋをその記事の争点と推定する。この争点は，その記事全体が主に何の価値に重きを置いて述べられているかを表すものである。このように、記事ごとに争点を判別し、後の処理で争点ごとにグループ化して文章を生成することで、一貫した主張を述べている意見文を生成することができる。そのため、このように記事ごとに争点を決定する処理が重要となる。

図７は文抽出部１０６での動作を示すフローチャートである。Ｓ７００で，文抽出部１０６が出力する文を格納する空リストを生成する。Ｓ７０１では、争点決定部が出力したすべての記事のすべての文に対して処理が実行されるまでループする。Ｓ７０２で図８に示す複数の条件に従って，文をスコアリングする。８００は条件のＩＤを表し，８０１は条件，８０２はその条件を満たす場合の点数を表す。図８の各条件に当てはまる場合は，対応する点数を加点する。文のスコアは，すべての点数の和とする。例えば，ある文が＃１と＃４のみを満たす場合は，その文のスコアは６となる。Ｓ７０３でスコアの値が５以上なら，Ｓ７００で生成したリストにその文を追加する。Ｓ７０４でループを終了する。Ｓ７０５でリスト内にある文を文抽出部１０６の出力とする。このような構成とすることで、一つの記事の中でも議題や争点とは関係のない文を、次の文並び替え部で用いる候補から除外することができる。

図９は文並び替え部１０７の動作を示すフローチャートである。Ｓ９００で文を争点ごとにグループ化する。争点決定部１０５で，記事ごとに何が争点となっているかが推定されている。よって文の抽出元の記事の争点をキーとして，文をグループ化する。例えば，争点決定部１０５で決定された争点が５つのみであるとすると，文抽出部１０６で抽出された文は，５つのグループに分類される。Ｓ９０１ですべてのグループに対してループする。Ｓ９０２でグループ内のすべての文を，主張，理由，例のいずれの種類に該当するかでラベリングする。このラベリングには機械学習の手法を用いることができる。例えばＢａｇ−ｏｆ−ｗｏｒｄｓなど公知の手法で文を特徴量ベクトルに変換し，これをＳＶＭなどの機械学習手法で分類することができる。

続いて，Ｓ９０３でテンプレートにあてはめることで文を並べ，論述文を生成する。例えば，主張→理由→例→主張→理由→例と，主張，理由，例を２回繰り返すテンプレートの場合，まず，グループ内の文の主張のうち，最も文抽出部１０６で算出したスコアが高いものを選択する。同様に，理由，例，主張，理由，例と順にスコアが高いものから順に選択してテンプレートを埋める。Ｓ９０４でループを終了する。

このように、文並び替え部１０７では、複数の争点についての論述文が生成されることになる。そして、次の評価部１０８において、文並び替え部１０７で生成された複数の論述文を評価することで、初めて最終出力文章における争点、すなわち、本システムの論述文の立場あるいは価値観が決定されることになる。このように、同じ争点と決定された記事から抜き出した文のみを用いて論述文を生成することで、一貫した立場で論ずる文章を生成することができる。

図１０は評価部１０８の動作を示すフローチャートである。評価部１０８は並び替えられて生成された文章を，議題に対する意見を述べた論述文の候補とみなし，評価し，評価値が高いものを最終的な出力とする。Ｓ１０００で言語モデルを使って生成された論述文の良さを評価する。これは統計的機械翻訳で用いられる手法と同様の方法で実施できる。具体的には人が作成した論述文のデータを集めて，これらをｎ−ｇｒａｍ言語モデルやニューラルネットワーク言語モデルなどの公知の方法を用いて予めモデル化する。このように生成しておいた評価モデルに対して，生成された論述文を当てはめ尤度を計算することで，尤度の高い論述文を評価値の高い論述文として出力することができる。言うまでもないが、評価方法はこの限りではなく，その他の公知の方法やヒューリスティックなルールや基準を用いて，生成された論述文を評価することができる。

Ｓ１００１で評価値が高いものを３つ出力する。評価部１０８には，文並び替え部１０７で争点ごとにグループ化したグループ数の論述文が入力される。Ｓ１００１により，最終的に３つの論述文が出力されることになる。本実施例では、本システムを使用するユーザが、短時間で文章の内容を把握しやすいよう３つの文章を出力する構成としているが、入力部で入力されたユーザの設定により、出力する文章の数を変更する構成とすることもできる。このような構成とすることで、ユーザの知識レベルに応じた使用が可能となる。

図１１は言い換え部１０９の動作を示すフローチャートである。Ｓ１１００で照応関係のずれを修正する。具体的には，論述文の各文において，抽出元の記事に対して前述のＯｐｅｎＮＬＰで共参照解析を実行する。その結果を使って，論述文の中の文の代名詞の参照先となる名詞や固有名詞を見つけ，その代名詞を置き換える。Ｓ５０１で，接続詞を補完する。論述文の連続する２文に対し，後ろの文の先頭に接続詞があれば，まずそれを除去する。続いて，前の文のＢａｇ−ｏｆ−ｗｏｒｄｓと後ろの文のＢａｇ−ｏｆ−ｗｏｒｄｓベクトルを連結したベクトルを特徴量として，ＳＶＭで接続詞を推定する。Ｓ５０２で固有名詞を含む句を削除する。文並び替え部１０７で主張と判定された文に対してのみ，固有名詞を含む句があれば，それを削除する。

例えば，「ＥｘｐｅｒｔｓａｉｄｔｈａｔｃａｓｉｎｏｄｒａｍａｔｉｃａｌｌｙｉｎｃｒｅａｓｅｔｈｅｎｕｍｂｅｒｏｆｃｒｉｍｅｓｉｎＫｏｋｕｂｕｎｊｉ−ｓｈｉ．」という文があれば，論述文の抽象的な主張を構成する文としては，固有名詞を含んでいると不自然なため，「ｉｎＫｏｋｕｂｕｎｊｉ−ｓｈｉ」の句を削除して，「Ｅｘｐｅｒｔｓａｉｄｔｈａｔｃａｓｉｎｏｄｒａｍａｔｉｃａｌｌｙｉｎｃｒｅａｓｅｔｈｅｎｕｍｂｅｒｏｆｃｒｉｍｅｓ．」として出力する。このように、接続詞を補ったり、照応関係を修正して並び替えた複数の文の抽象度を同一にすることで、ディベートの意見文として意味の通る文章を出力することができる。

出力部１１０は，システムの最終的な出力となる論述文をディスプレイなどの手段によりユーザに提示する。もちろん、ディスプレイの表示以外で、合成した音声を出力してもかまわない。実際のディベートの場であれば、肯定側と否定側がそれぞれ口頭で意見を述べるため、音声を出力する方がユーザに対して、より臨場感を与えることができる。

以上を踏まえると、本実施例に記載の文章生成システムは、議題に対する意見文を出力する文章生成システムであって、議題が入力される入力部と、議題を解析し、議題の極性と検索に用いるキーワードとを判定する議題解析部と、キーワードと、議論における争点を示す争点語とを用いて記事を検索する検索部と、意見文を生成する際に用いる争点を決定する争点決定部と、検索部が出力した記事から、争点について述べている文を抽出する文抽出部と、文を並び替えることにより文章を生成する文並び替え部と、文章を評価する評価部と、文章に対して、適切な接続詞を挿入する言い換え部と、複数の文章のうち、最も評価の高い文章を意見文として出力する出力部と、を有することを特徴とする。

また、本実施例に記載の文章生成方法は、議題に対する意見文を出力する文章生成方法であって、議題が入力される第１ステップと、議題を解析し、議題の極性と検索に用いるキーワードとを判定する第２ステップと、キーワードと、議論における争点を示す争点語とを用いて記事を検索する第３ステップと、意見文を生成する際に用いる前記争点を決定する第４ステップと、第３ステップで出力された記事から、争点について述べている文を抽出する第５ステップと、文を並び替えることにより文章を生成する第６ステップと、文章を評価する第７ステップと、文章に対して、適切な接続詞を挿入する第８ステップと、複数の文章のうち、最も評価の高い文章を前記意見文として出力する第９ステップと、を有することを特徴とする。

このように、意見文の柱となる争点に基づき、記事を分類し、文を抽出し、文章を並び替えることで、１の争点について述べている文章を生成することができ、意見文に一貫性を持たせることができる。また、人間がディベートで立論を行う際のように、予め争点を決めてから情報を収集するのではなく、全ての争点について検索し、文を生成した上で、複数の争点に対して一律に評価することで、争点にこだわらず説得力のある意見文を生成することができる。

１００…生成システム、
１０１…データ管理システム、
１０２…入力部、
１０３…議題解析部、
１０４…検索部、
１０５…争点決定部、
１０６…文抽出部、
１０７…文並び替え部、
１０８…評価部、
１０９…言い換え部、
１１０…出力部、
１１１…インターフェース
１１２…テキストデータデータベース、
１１３…テキストアノテーションデータデータベース，
１１４…検索用インデックスデータベース，
１１5…争点オントロジデータベース。

Claims

文章生成システムであって、
演算装置と記憶装置とを含み、
前記記憶装置は、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記演算装置は、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成システム。
請求項１に記載の文章生成システムにおいて、
前記記憶装置は、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記演算装置は、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成システム。
請求項１に記載の文章生成システムにおいて、
前記記憶装置は、文章から評価値を算出する評価モデルを保持し、
前記演算装置は、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのＢａｇ−ｏｆ−ｗｏｒｄｓによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成システム。
請求項１に記載の文章生成システムにおいて、
前記演算装置は、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成システム。
請求項３に記載の文章生成システムにおいて、
前記演算装置は、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成システム。
文章生成システムによる文章生成方法であって、
前記文章生成システムは、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記文章生成方法は、
前記文章生成システムが、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成方法。
請求項６に記載の文章生成方法において、
前記文章生成システムは、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記文章生成方法は、前記文章生成システムが、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成方法。
請求項６に記載の文章生成方法において、
前記文章生成システムは、文章から評価値を算出する評価モデルを保持し、
前記文章生成方法は、
前記文章生成システムが、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのＢａｇ−ｏｆ−ｗｏｒｄｓによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成方法。
請求項６に記載の文章生成方法において、
前記文章生成システムが、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成方法。
請求項８に記載の文章生成方法において、
前記文章生成システムが、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成方法。