JP2715875B2 - 多言語要約生成装置 - Google Patents

多言語要約生成装置

Info

Publication number
JP2715875B2
JP2715875B2 JP5330277A JP33027793A JP2715875B2 JP 2715875 B2 JP2715875 B2 JP 2715875B2 JP 5330277 A JP5330277 A JP 5330277A JP 33027793 A JP33027793 A JP 33027793A JP 2715875 B2 JP2715875 B2 JP 2715875B2
Authority
JP
Japan
Prior art keywords
sentence
unit
keyword
keywords
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5330277A
Other languages
English (en)
Other versions
JPH07192011A (ja
Inventor
真一 安藤
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5330277A priority Critical patent/JP2715875B2/ja
Priority to US08/304,945 priority patent/US5774845A/en
Publication of JPH07192011A publication Critical patent/JPH07192011A/ja
Application granted granted Critical
Publication of JP2715875B2 publication Critical patent/JP2715875B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は自然言語で記述された文
書を解析し、予め指定された内容を要約し、多言語翻訳
を行って出力する多言語要約生成装置に関するものであ
る。 【0002】 【従来の技術】従来、要約文を生成する手法には、重要
語や特定の語彙、あるいは接続詞や文末表現を手がかり
として文書中の各文の重要度を評価し、重要な文から要
約文を組み上げる手法があった。しかし、これらの手法
は一般的な文書内容を対象として要約文を生成すること
を目的としているため、多様な言語現象に対応できず、
利用者の意図に応じた出力は得られなかった。また、予
め利用者が知りたい情報を詳細に設定することにより対
象領域を制限し、ある決まった構造で情報を抽出する情
報抽出手法には、例えば「情報処理学会 第47回全国大
会講演論文集 第3巻 83ページ」に記載のものが知
られている。ここに記載された装置では、対象領域に関
するキーワードと構文構造を利用したキーワード間関係
計算規則によって指定された情報を抽出し、フレーム形
式で抽出した情報を出力している。しかし、フレームの
ような形式は、利用者が各スロットの定義を熟知してい
る必要があり、また、特に指定情報の構造が複雑である
場合、理解しづらいという問題点がある。更に、数多く
の機械翻訳装置が提案されているが、一般の話題を対象
として新聞記事などの長い文を含む文書を高品質で翻訳
できる装置はなかった。このため、例えば新聞記事のク
リッピングサービスなどではキーワードで検索した記事
をそのままの形で、あるいは人手で要約、翻訳を行って
提供していた。 【0003】 【発明が解決しようとする課題】従来の技術で述べた要
約手法は、文書に含まれる一般的な内容を抽出すること
を目的としているため、深い意味解析が必要となる。し
かし、実際の文書中には多種多様の言語現象が現れるた
め、これら全てに対応し、利用者が求める内容の正確な
要約文を生成することは困難であった。また従来提案さ
れている要約手法では、各文の重要度の定義は予め装置
が独自に備えており、利用者が何を知りたいかによって
要約する内容を変更することはできない。一般的な内容
を対象とせず、予め設定された領域のみを対象とする従
来の情報抽出手法は対象領域が予め指定されているため
正確な情報を抽出することができる。しかしその出力は
フレーム形式で与えられるため、出力を直接読み、利用
する利用者には理解しづらいという問題点がある。更に
機械翻訳では、原言語を解析する段階で構文レベルにお
いても語彙レベルにおいても曖昧性が生じて文が長くな
ると解析できない、文を越えた文脈レベルを扱えないと
いった問題点があり、翻訳結果の品質は悪かった。この
ため、例えば新聞記事クリッピングなどの場合、キーワ
ード検索のみによって得られた記事情報を全文書のま
ま、あるいは人手で要約、翻訳などの作業を行った後に
利用していた。 【0004】本発明の目的は入力文書に対し、利用者の
指定に応じた、高品質の要約を多言語で生成することで
ある。ここでは予め要約対象を指定することにより正確
な要約内容の抽出が可能であるため、利用者の指定に応
じた正確な要約を出力することができる。また、利用者
は利用に応じて要約対象を変更することができるため、
要約する内容を変更することができる。更に、要約内容
の抽出で得られる情報は曖昧性のない一定の形式である
ため、高品質の翻訳結果を出力することができる。 【0005】 【課題を解決するための手段】上述した問題を解決する
ため、発明した多言語要約生成装置は自然言語で記述さ
れた文書を入力として受けつける文書入力部と、予め抽
出すべきと指定された要約対象に関係するキーワードと
指定された対象において各キーワードが持つ詳細情報を
格納するキーワード辞書部と、前記キーワード辞書部に
格納されたキーワード情報を利用してキーワード同士の
関係を認定し、指定された要約対象に一致するキーワー
ドの選択および合成を行う規則を格納したキーワード間
関係計算規則格納部と、前記キーワード辞書部に格納さ
れたキーワード情報と前記キーワード間関係計算規則格
納部に格納された規則を利用して、指定された要約対象
をキーワードとキーワード同士の関係として抽出する文
書情報抽出部と、前記文書情報抽出部で出力されたキー
ワードとキーワード同士の関係構造から成る一定の形式
を文を表す中間構造に変換し、必要な場合には複数の中
間構造に分割する規則を格納する文構造生成規則格納部
と、前記文構造生成規則格納部に格納された規則を利用
して前記文書情報抽出部が出力した指定情報の構造を文
を表す中間構造に変換する文構造生成部と、各キーワー
ドと目標言語の対応を示す目標言語辞書部と、文を表す
中間構造から自然言語文を生成する規則を格納した文生
成規則格納部と、前記目標言語辞書部に格納された語彙
情報と前記文生成規則格納部に格納された規則を利用し
て前記文構造生成部が出力した中間構造から自然言語文
を生成する文生成部と、前記文生成部が出力した自然言
語文を出力、表示する要約文出力部を備えている。 【0006】 【実施例】次に本発明について図面を参照して説明す
る。 【0007】第1 図は本発明の請求項1 記載の一実施例
を示すブロック図である。第1 図を参照すると本発明
は、自然言語で記述された文書を入力として受けつける
文書入力部1 と、予め抽出すべきと指定された要約対象
に関係するキーワードと指定された対象において各キー
ワードが持つ詳細情報を格納するキーワード辞書部2
と、前記キーワード辞書部2に格納されたキーワード情
報を利用してキーワード同士の関係を認定し、指定され
た要約対象に一致するキーワードの選択および合成を行
う規則を格納したキーワード間関係計算規則格納部3
と、前記キーワード辞書部2に格納されたキーワード情
報と前記キーワード間関係計算規則格納部3に格納され
た規則を利用して、指定された要約対象をキーワードと
キーワード同士の関係として抽出する文書情報抽出部4
と、前記文書情報抽出部4で出力されたキーワードとキ
ーワード同士の関係構造から成る一定の形式を文を表す
中間構造に変換し、必要な場合には複数の中間構造に分
割する規則を格納する文構造生成規則格納部5と、前記
文構造生成規則格納部5に格納された規則を利用して前
記文書情報抽出部4が出力した指定情報の構造を文を表
す中間構造に変換する文構造生成部6と、各キーワード
と目標言語の対応を示す目標言語辞書部7と、文を表す
中間構造から自然言語文を生成する規則を格納した文生
成規則格納部8と、前記目標言語辞書部7に格納された
語彙情報と前記文生成規則格納部8に格納された規則を
利用して前記文構造生成部6が出力した中間構造から自
然言語文を生成する文生成部9と、前記文生成部9が出
力した自然言語文を出力、表示する要約文出力部10か
ら構成される。 【0008】次に第1図を参照して、本発明の実施例の
動作について説明する。 【0009】本発明の一実施例として、「どのような企
業がどのような半導体製造技術を開発、製造、販売して
いるか、あるいは利用しているか」という半導体製造技
術の内容を利用者が知りたがっている場合を考える。ま
た文書情報抽出部4に対し、例えば第2図に示すよう
な、キーワードとキーワード間関係から成る出力形式が
与えられたとする。第2図は文書内に半導体製造技術に
関する内容が存在し、その要約内容は日本電気という開
発者とエッチング技術から成ることを示している。ここ
で、日本電気は東京都に存在することを示している。ま
たエッチング技術はその分類がプラズマエッチング技術
であり、64メガビット用DRAMに対応する技術であ
ることを示している。 【0010】ここで例えば、第3図に示す入力文書を考
える。 【0011】文書入力部1から入力された文書は文書情
報抽出部4に渡される。キーワード辞書部2には利用者
が指定した対象領域に関するキーワードが格納されてお
り、例えば半導体製造技術については、「日本電気」な
ど企業を表すキーワード、「プラズマエッチング」など
半導体製造技術を表すキーワード、「開発」など企業と
半導体製造技術の関係を表すキーワードと、それぞれに
ついての詳細情報が格納されている。またキーワード間
関係計算規則格納部3には、キーワード辞書部2に格納
されたキーワード間の関係、あるいは共起関係や構文構
造などを利用して、キーワードを組み合わせる方法やキ
ーワードに付された詳細情報を合成する手法を記述した
キーワード間関係計算規則が格納されている。文書情報
抽出部4はキーワード辞書部2に格納されたキーワード
情報とキーワード間関係計算規則格納部3に格納された
キーワード間関係計算規則を利用して入力された文書を
解析し、要約対象の内容を抽出し、指定された形式で出
力する。例えば第3図に示す文書の場合、まず、キーワ
ード辞書部2に格納されたキーワード、「日本電気」
「プラズマエッチング」「開発」などの語彙をキーワー
ドとして認識する。さらに、キーワード間関係計算規則
格納部3に納められた規則を適応する。例えば構文構造
を利用してキーワード間関係を認定し、関係あるキーワ
ードの詳細情報を合成することによって、文書情報抽出
部4は第2図に示す構造を出力する。文構造生成部6は
文書情報抽出部4の出力したデータを受け取り、文構造
生成規則格納部5 に納められた規則を適応することによ
って、受け取ったデータを文の構造を示す中間構造に変
換する。例えば第2図のデータを受け取った文構造生成
部6は、文書情報抽出部4の出力する構造についての知
識を基に記述された文構造生成規則を適応して、第4図
に示す変換結果を出力する。第4図では「どのような企
業がどのような半導体製造技術を開発、製造、販売して
いるか、あるいは利用しているか」という抽出対象の形
式に従い、用言「開発」を中心として「日本電気」を主
格、「プラズマエッチング技術」を目的格とする木構造
に変換している。また、文書情報抽出部4の出力した構
造が複雑な場合には、予め設定した文書情報抽出部4の
出力に応じた文分割規則を記述し、文構造生成規則格納
部6に納めることによって、複数の木構造に分けること
も可能である。文生成部9は文構造生成部6の出力を受
け取り、目標言語辞書部7に格納された対訳と文生成規
則格納部8に納められた文法規則を利用して文を生成す
る。例えば、目標言語を英語として目標言語辞書部7と
文生成規則格納部8を構成した場合、第4図の木構造の
入力に対して第5図の出力が得られる。要約文出力部1
0は文生成部9が出力した文を表示する。 【0012】 【発明の効果】本発明では要約の視点となる情報を対象
領域と出力形式である中間構造を設定することによっ
て、利用者の意図に正確に応じた要約文を生成すること
ができる。また対象領域は変更可能であるため、複数の
要約の視点を利用者に提供することができる。さらに全
文を解析の対象とせず、キーワードを中心とした部分的
な解析で要約内容を抽出でき、曖昧性のない一定の中間
構造形式を得ることができる。すなわち、翻訳処理にお
いてはこの中間構造から直接翻訳を行うため、高品質の
多言語要約文を出力することができる。
【図面の簡単な説明】 【図1】図は本発明の請求項1 記載の一実施例であるブ
ロック図を説明する図である。 【図2】図は本発明の一実施例を説明する図である。 【図3】図は本発明の一実施例を説明する図である。 【図4】図は本発明の一実施例を説明する図である。 【図5】図は本発明の一実施例を説明する図である。 【符合の説明】 1 文書入力部 2 キーワード辞書部 3 キーワード間関係計算規則格納部 4 文書情報抽出部 5 文書構造生成規則格納部 6 文構造生成部 7 目標言語辞書部 8 文生成規則格納部 9 文生成部 10 要約文出力部

Claims (1)

  1. (57)【特許請求の範囲】 【請求項1 】 自然言語で記述された文書を入力として
    受けつける文書入力部と、予め抽出すべきと指定された
    要約対象に関係するキーワードと指定された対象におい
    て各キーワードが持つ詳細情報を格納するキーワード辞
    書部と、 前記キーワード辞書部に格納されたキーワード情報を利
    用してキーワード同士の関係を認定し、指定された要約
    対象に一致するキーワードの選択および合成を行う規則
    を格納したキーワード間関係計算規則格納部と、 前記キーワード辞書部に格納されたキーワード情報と前
    記キーワード間関係計算規則格納部に格納された規則を
    利用して、指定された要約対象をキーワードとキーワー
    ド同士の関係として抽出する文書情報抽出部と、 前記文書情報抽出部で出力されたキーワードとキーワー
    ド同士の関係構造から成る一定の形式を文を表す中間構
    造に変換し、必要な場合には複数の中間構造に分割する
    規則を格納する文構造生成規則格納部と、 前記文構造生成規則格納部に格納された規則を利用して
    前記文書情報抽出部が出力した指定情報の構造を文を表
    す中間構造に変換する文構造生成部と、 各キーワードと目標言語の対応を示す目標言語辞書部
    と、 文を表す中間構造から自然言語文を生成する規則を格納
    した文生成規則格納部と、 前記目標言語辞書部に格納された語彙情報と前記文生成
    規則格納部に格納された規則を利用して前記文構造生成
    部が出力した中間構造から自然言語文を生成する文生成
    部と、 前記文生成部が出力した自然言語文を出力、表示する要
    約文出力部を備えていることを特徴とする多言語要約生
    成装置。
JP5330277A 1993-09-17 1993-12-27 多言語要約生成装置 Expired - Fee Related JP2715875B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5330277A JP2715875B2 (ja) 1993-12-27 1993-12-27 多言語要約生成装置
US08/304,945 US5774845A (en) 1993-09-17 1994-09-13 Information extraction processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5330277A JP2715875B2 (ja) 1993-12-27 1993-12-27 多言語要約生成装置

Publications (2)

Publication Number Publication Date
JPH07192011A JPH07192011A (ja) 1995-07-28
JP2715875B2 true JP2715875B2 (ja) 1998-02-18

Family

ID=18230856

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5330277A Expired - Fee Related JP2715875B2 (ja) 1993-09-17 1993-12-27 多言語要約生成装置

Country Status (1)

Country Link
JP (1) JP2715875B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3970031A4 (en) * 2019-05-17 2023-06-07 Thomson Reuters Enterprise Centre GmbH SYSTEMS AND METHODS FOR SUMMARY OF EVENTS FROM DATA

Also Published As

Publication number Publication date
JPH07192011A (ja) 1995-07-28

Similar Documents

Publication Publication Date Title
JP4635659B2 (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US6401061B1 (en) Combinatorial computational technique for transformation phrase text-phrase meaning
US5774845A (en) Information extraction processor
JP2892548B2 (ja) 自動翻訳装置
JPH02165378A (ja) 機械翻訳システム
JP2017199363A (ja) 機械翻訳装置及び機械翻訳のためのコンピュータプログラム
JP2009205357A (ja) 中国語の品詞を判定する装置、方法およびプログラム
WO2020012813A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2715875B2 (ja) 多言語要約生成装置
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP4007630B2 (ja) 対訳例文登録装置
JP2546515B2 (ja) 情報抽出装置
JPH0561902A (ja) 機械翻訳システム
JP3972697B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
JP2719453B2 (ja) 機械翻訳装置
JPH08329059A (ja) 汎用参照装置
JP3244286B2 (ja) 翻訳処理装置
JP2608384B2 (ja) 機械翻訳装置及びその方法
JP3313810B2 (ja) アスペクト処理装置
JPH11282844A (ja) 文書作成方法および情報処理装置および記録媒体
JPH05225232A (ja) テキスト自動前編集装置
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置
JPH04130577A (ja) 自然言語処理装置
JP2004199519A (ja) 機械翻訳方法、機械翻訳装置、および機械翻訳プログラム
KR20050080140A (ko) 다국어 검색 서비스 제공방법 및 이를 위한 시스템

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19971007

LAPS Cancellation because of no payment of annual fees