JP6466952B2 - 文章生成システム - Google Patents
文章生成システム Download PDFInfo
- Publication number
- JP6466952B2 JP6466952B2 JP2016551422A JP2016551422A JP6466952B2 JP 6466952 B2 JP6466952 B2 JP 6466952B2 JP 2016551422 A JP2016551422 A JP 2016551422A JP 2016551422 A JP2016551422 A JP 2016551422A JP 6466952 B2 JP6466952 B2 JP 6466952B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- issue
- word
- sentences
- agenda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
[第1の実施の形態]
以下、本発明の第1の実施の形態の文章生成システムについて説明する。本発明の第1の実施の形態の文章生成システムは、9つのモジュールが結合された生成システムと,データ管理システムからなるシステムである。具体的なハードウェア構成の例は図12に示すとおり、入力装置1202、出力装置1203、各モジュールを実行するプログラムが記録されたメモリ1205、テキストデータDBやテキストアノテーションデータDB113等を含む記憶装置1207で構成される。
+ (争点オントロジ内の単語が出現する回数)
− (記事の古さ)
ここで記事の古さは,最新年が2014年とすると,2014年に発行された記事は0,2013年に発行された記事は1,2012年に発行された記事は2となる。続いてS504で,スコアの高い上記100件の記事を出力する。このように、単語の出現回数が高い記事のスコアを上げることで、議題や争点との関係性が高い記事が発見できる。また、記事の古さについてもスコアをつけることで、より新しいデータが反映された記事を発見でき、最終的に出力する文章の説得力を増すことができる。
101…データ管理システム、
102…入力部、
103…議題解析部、
104…検索部、
105…争点決定部、
106…文抽出部、
107…文並び替え部、
108…評価部、
109…言い換え部、
110…出力部、
111…インターフェース
112…テキストデータデータベース、
113…テキストアノテーションデータデータベース,
114…検索用インデックスデータベース,
115…争点オントロジデータベース。
Claims (10)
- 文章生成システムであって、
演算装置と記憶装置とを含み、
前記記憶装置は、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記演算装置は、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成システム。 - 請求項1に記載の文章生成システムにおいて、
前記記憶装置は、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記演算装置は、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成システム。 - 請求項1に記載の文章生成システムにおいて、
前記記憶装置は、文章から評価値を算出する評価モデルを保持し、
前記演算装置は、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのBag−of−wordsによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成システム。 - 請求項1に記載の文章生成システムにおいて、
前記演算装置は、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成システム。 - 請求項3に記載の文章生成システムにおいて、
前記演算装置は、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成システム。 - 文章生成システムによる文章生成方法であって、
前記文章生成システムは、
記事のテキストデータと、
議題における争点を含む争点語を格納する争点データと、を保持し、
前記争点語は、それぞれが前記争点に対応付けられた、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、を含み、
前記文章生成方法は、
前記文章生成システムが、
議題の入力を受け付け、
前記議題の構文解析木を生成し、
前記構文解析木の所定の構文タグを有する部分木に含まれる名詞句をキーワードとして決定し、
前記キーワードを含む記事を前記テキストデータから検索し、
検索結果に含まれる記事における前記争点語の出現回数に基づいて、前記検索結果から記事を選択し、
前記抑制語と前記促進語とを取得し、
前記選択した記事ごとに、前記争点データに含まれる各争点に対応する前記抑制語及び前記促進語の前記選択した記事における出現回数を算出し、
前記選択した記事ごとに、前記算出した出現回数に基づいて、前記争点データから争点を決定し、
争点と文との関連性を示す所定の条件と前記選択した記事との比較結果に基づいて、前記選択した記事から、前記決定した争点について述べている文を抽出し、
前記抽出した文の特徴量に基づいて、当該文が主張、理由、又は例のいずれかの種類に該当するかを示すラベルを、前記抽出した文それぞれに付し、
ラベルが付された文の順序を示す所定のテンプレートと、前記抽出した文それぞれに付したラベルと、に基づいて、前記抽出した文を並び替えることにより、文章を生成することを特徴とする文章生成方法。 - 請求項6に記載の文章生成方法において、
前記文章生成システムは、
前記テキストデータに付与されたアノテーションデータと、
前記テキストデータと前記アノテーションデータとから生成され、前記テキストデータと前記アノテーションデータを検索するためのインデックスである検索用インデックスと、を保持し、
前記文章生成方法は、前記文章生成システムが、前記検索用インデックスのインデックスを用いて、前記キーワードを含む記事を前記テキストデータから検索することを特徴とする、文章生成方法。 - 請求項6に記載の文章生成方法において、
前記文章生成システムは、文章から評価値を算出する評価モデルを保持し、
前記文章生成方法は、
前記文章生成システムが、
前記評価モデルを用いて前記生成した文章の評価値を取得し、
複数の前記生成した文章のうち、最も評価値の高い文章に接続詞が挿入された文章を前記議題に対する意見文として出力し、
前記接続詞の挿入において、
前記意見文に含まれる連続する文それぞれのBag−of−wordsによる特徴量を比較して、当該連続する文の間に挿入する接続詞を推定し、
前記推定した接続詞を当該連続する文の間に挿入することを特徴とする文章生成方法。 - 請求項6に記載の文章生成方法において、
前記文章生成システムが、
対象に対して肯定的な意味を持つ肯定的動詞と、対象に対して否定的な意味を持つ否定的動詞と、を区別して保持する辞書情報を取得し、
前記議題に含まれる否定表現、並びに前記議題に含まれる前記辞書情報が示す前記肯定的動詞及び前記否定的動詞に基づいて、前記議題のキーワードに対する極性を判定し、
前記極性に基づいて、前記争点を抑制する意味の単語である抑制語と、前記争点を促進する意味の単語である促進語と、の一方を選択して取得し、
前記取得した一方と前記キーワードとを含む前記記事の検索を行うことを特徴とする文章生成方法。 - 請求項8に記載の文章生成方法において、
前記文章生成システムが、
複数の前記生成した文章それぞれと前記評価モデルとの尤度を算出し、
複数の前記生成した文章のうち、前記算出した尤度が最も高い文章を前記意見文として出力することを特徴とする文章生成方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/076237 WO2016051551A1 (ja) | 2014-10-01 | 2014-10-01 | 文章生成システム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019002373A Division JP6830971B2 (ja) | 2019-01-10 | 2019-01-10 | 文章生成のためのデータを生成するシステム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016051551A1 JPWO2016051551A1 (ja) | 2017-06-01 |
JP6466952B2 true JP6466952B2 (ja) | 2019-02-06 |
Family
ID=55629642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016551422A Active JP6466952B2 (ja) | 2014-10-01 | 2014-10-01 | 文章生成システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10496756B2 (ja) |
EP (1) | EP3203383A4 (ja) |
JP (1) | JP6466952B2 (ja) |
CN (1) | CN106663087B (ja) |
WO (1) | WO2016051551A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200125235A (ko) * | 2019-04-26 | 2020-11-04 | 주식회사 엔씨소프트 | 퀴즈 생성 장치 및 퀴즈 생성 방법 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10546063B2 (en) * | 2016-12-13 | 2020-01-28 | International Business Machines Corporation | Processing of string inputs utilizing machine learning |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁***集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
JP6973157B2 (ja) * | 2018-02-16 | 2021-11-24 | 日本電信電話株式会社 | 議論構造拡張装置、議論構造拡張方法、及びプログラム |
CN108694160B (zh) * | 2018-05-15 | 2021-01-22 | 北京三快在线科技有限公司 | 文章生成方法、设备及存储介质 |
JP7117168B2 (ja) * | 2018-06-14 | 2022-08-12 | 株式会社日立製作所 | 情報処理装置および情報処理方法 |
JP7156010B2 (ja) * | 2018-12-26 | 2022-10-19 | 日本電信電話株式会社 | 発話文生成モデル学習装置、発話文収集装置、発話文生成モデル学習方法、発話文収集方法、及びプログラム |
CN109885821B (zh) * | 2019-03-05 | 2023-07-18 | 中国联合网络通信集团有限公司 | 基于人工智能的文章撰写方法及装置、计算机存储介质 |
CN110096710B (zh) * | 2019-05-09 | 2022-12-30 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110245339B (zh) * | 2019-06-20 | 2023-04-18 | 北京百度网讯科技有限公司 | 文章生成方法、装置、设备和存储介质 |
CN110717041B (zh) * | 2019-09-19 | 2023-10-03 | 太极计算机股份有限公司 | 一种案件检索方法及*** |
US11361759B2 (en) * | 2019-11-18 | 2022-06-14 | Streamingo Solutions Private Limited | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media |
US11443211B2 (en) | 2020-01-08 | 2022-09-13 | International Business Machines Corporation | Extracting important sentences from documents to answer hypothesis that include causes and consequences |
CN111859982B (zh) * | 2020-06-19 | 2024-04-26 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、电子设备及可读存储介质 |
CN113609263B (zh) * | 2021-09-30 | 2022-01-25 | 网娱互动科技(北京)股份有限公司 | 一种文章自动生成方法和*** |
KR20240055290A (ko) * | 2022-10-20 | 2024-04-29 | 주식회사 아이팩토리 | 자연어 생성 모델을 이용하여 텍스트를 자동으로 생성하는 기능을 갖는 문서 작성 장치, 방법, 컴퓨터 프로그램, 컴퓨터로 판독 가능한 기록매체, 서버 및 시스템 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7930302B2 (en) * | 2006-11-22 | 2011-04-19 | Intuit Inc. | Method and system for analyzing user-generated content |
US8239189B2 (en) * | 2008-02-26 | 2012-08-07 | Siemens Enterprise Communications Gmbh & Co. Kg | Method and system for estimating a sentiment for an entity |
US20090265307A1 (en) | 2008-04-18 | 2009-10-22 | Reisman Kenneth | System and method for automatically producing fluent textual summaries from multiple opinions |
US8332394B2 (en) | 2008-05-23 | 2012-12-11 | International Business Machines Corporation | System and method for providing question and answers with deferred type evaluation |
CN101620596B (zh) * | 2008-06-30 | 2012-02-15 | 东北大学 | 一种面向查询的多文档自动摘要方法 |
CN101667194A (zh) * | 2009-09-29 | 2010-03-10 | 北京大学 | 基于用户评论文本特征的自动摘要方法及其自动摘要*** |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和*** |
CN102279846A (zh) * | 2010-06-10 | 2011-12-14 | 英业达股份有限公司 | 文章辅助写作***及其方法 |
CN101980196A (zh) * | 2010-10-25 | 2011-02-23 | 中国农业大学 | 文章比对方法与装置 |
US20150089409A1 (en) * | 2011-08-15 | 2015-03-26 | Equal Media Limited | System and method for managing opinion networks with interactive opinion flows |
-
2014
- 2014-10-01 EP EP14903477.9A patent/EP3203383A4/en not_active Ceased
- 2014-10-01 US US15/507,390 patent/US10496756B2/en active Active
- 2014-10-01 JP JP2016551422A patent/JP6466952B2/ja active Active
- 2014-10-01 CN CN201480080943.8A patent/CN106663087B/zh active Active
- 2014-10-01 WO PCT/JP2014/076237 patent/WO2016051551A1/ja active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200125235A (ko) * | 2019-04-26 | 2020-11-04 | 주식회사 엔씨소프트 | 퀴즈 생성 장치 및 퀴즈 생성 방법 |
KR102242392B1 (ko) * | 2019-04-26 | 2021-04-20 | 주식회사 엔씨소프트 | 퀴즈 생성 장치 및 퀴즈 생성 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN106663087A (zh) | 2017-05-10 |
JPWO2016051551A1 (ja) | 2017-06-01 |
US20170286408A1 (en) | 2017-10-05 |
US10496756B2 (en) | 2019-12-03 |
WO2016051551A1 (ja) | 2016-04-07 |
EP3203383A1 (en) | 2017-08-09 |
CN106663087B (zh) | 2019-08-16 |
EP3203383A4 (en) | 2018-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6466952B2 (ja) | 文章生成システム | |
CN109241538B (zh) | 基于关键词和动词依存的中文实体关系抽取方法 | |
Maynard et al. | Natural language processing for the semantic web | |
US10496928B2 (en) | Non-factoid question-answering system and method | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和*** | |
KR101136007B1 (ko) | 문서 감성 분석 시스템 및 그 방법 | |
WO2010038540A1 (ja) | テキストセグメントを有する文書から用語を抽出するためのシステム | |
US8375033B2 (en) | Information retrieval through identification of prominent notions | |
Asghar et al. | Medical opinion lexicon: an incremental model for mining health reviews | |
TWI656450B (zh) | 從中文語料庫提取知識的方法和系統 | |
CN110532328A (zh) | 一种文本概念图构造方法 | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
Qiu et al. | Advanced sentiment classification of *** microblogs on smart campuses based on multi-feature fusion | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
JP6830971B2 (ja) | 文章生成のためのデータを生成するシステム及び方法 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
Das et al. | Sentiment analysis of movie reviews using POS tags and term frequencies | |
JP2006065387A (ja) | テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム | |
Bassa et al. | GerIE-An Open Information Extraction System for the German Language. | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
Diamantini et al. | Semantic disambiguation in a social information discovery system | |
Siddiqui | Sarcasm detection from Twitter database using text mining algorithms | |
Boonpa et al. | Relationship extraction from Thai children's tales for generating illustration | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Zahra | Targeted Topic Modeling for Levantine Arabic |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181002 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181211 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190110 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6466952 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |