JPH0634175B2 - 文章読上げ装置 - Google Patents

文章読上げ装置

Info

Publication number
JPH0634175B2
JPH0634175B2 JP60260303A JP26030385A JPH0634175B2 JP H0634175 B2 JPH0634175 B2 JP H0634175B2 JP 60260303 A JP60260303 A JP 60260303A JP 26030385 A JP26030385 A JP 26030385A JP H0634175 B2 JPH0634175 B2 JP H0634175B2
Authority
JP
Japan
Prior art keywords
sentence
unit
word
reading
unknown word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60260303A
Other languages
English (en)
Other versions
JPS62119591A (ja
Inventor
ふかみ 神山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP60260303A priority Critical patent/JPH0634175B2/ja
Publication of JPS62119591A publication Critical patent/JPS62119591A/ja
Publication of JPH0634175B2 publication Critical patent/JPH0634175B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の概要〕 本発明は表記された文章を辞書部の単語等とマッチング
をっとりながら単語等を同定し、読みに変換し音声合成
部において文章を読上げる文章読上げ装置に関する。
従来、この種の文章読上げ装置において文章中のあるカ
タカナや平仮名は辞書中の単語等とマッチングがとれな
いために単語の同定に失敗し正しい文章を読上げること
が出来なくなる場合があった。本発明の文章読上げ装置
においては、辞書部に存在していないカタカナまたは平
仮名文字列が文章中に存在した場合、そこで解析を一時
ストップし文章を後方にサーチし辞書部に存在する単語
の始まりを検出し、そこから解析を再開し、無視した前
記カタカナや平仮名の未知語に対しては一字ずつ読みに
変換し、音声合成部に入力して文章を読上げて正しい文
章を読上げる読上げ装置を提供している。
〔産業上の利用分野〕
本発明は日本語処理装置の構成に関し、特に単語、文
節、句等の単語等から構成される文章の各単語等を辞書
部の単語等とマッチングをとりながら単語等を同定し、
音声合成部で文章を読上げる文章読上げ装置の構成に関
する。
〔従来技術〕
集積化技術の発展に伴い、プロセッサ、メモリ素子ある
いはプリンタやディスク装置等の高性能化や低価格とと
もに計算機システムの性能が向上し利用形態も個別使用
のみでなくネットワークを介してシステムの多用化が進
んできた。そして入出力装置の面ではパターン認識や音
声認識の技術の進歩に伴い漢字入出力、あるいは音声入
出力等、人間とのインターフェースの改善がなされ、日
本語処理を行う専用の処理装置もOA機器として重要視
されてきた。特にワードプロセッサは文章構造の処理機
能を備え、文章の編集や保管或いは文章作成を自動的に
行う装置として普及され日本語の文章が簡単に計算機シ
ステムの外部記憶装置に記憶されるようになった。また
最近では人間の音声を音節や単語等の単位で区切って発
声させ、個々の音節や単語を認識していく、いわゆる離
散型単語装置が実用化されるようになり、音声で日本語
文章をシステムに入力することができるようになってき
た。このようなワードプロセッサや音声入力装置を用い
て入力された日本語文章を正しく入力されたかどうかを
検査したり、あるいはすでにシステムに格納された新聞
記事等を単に耳で聞く場合、機械が格納された文章を読
上げる文章読上げ装置の重要性が高まってきた。この文
章読上げ装置は文章の単語あるいは文節や句等の単語等
を辞書部の単語等とマッチングをとりながら同定し各文
章を音声合成部を介して読上げる機能を必要とする。と
ころが日本語の文章は新聞記事等に見られるようにカタ
カナ文字列の固有名詞や新語、強調のためのカタカナ書
き、あるいは漢字のかわりに平仮名書きにしている文章
が非常に多く存在している。このような文章を読上げ装
置で解析する場合に、文字列(すなわち基本的には単語
であるが文節や句でも良くこれらを総称して単語等と呼
ぶことにする)としての単語等の同定が辞書部にその単
語等が存在しないために失敗することが非常に多い。従
来この種の文章読上げ装置においては単語等の同定に失
敗した場合には正しい文章の読上げが出来なくなるとい
う欠点を有していた。
〔発明が解決しようとする問題点〕
本発明は上記従来の文章読上げ装置の欠点を除去し辞書
部の中の単語等と入力した単語等とがマッチングがとれ
なかった場合、すなわち未知語の部分は一度無視して同
定できる部分を解析し無視した前記未知語に対しては一
字ずつ読みに変換することにより文章全体を正しく読上
げることを可能とする読上げ装置を提供するものであ
る。
〔問題点を解決するための手段〕
本発明は、上記目的を達成するために文章を格納する文
章ファイル部と、前記文章ファイル部から文章を入力又
は出力することを制御する文章入出力部と、前記文章フ
ァイル部から前記文章入出力部を介して読み出された文
章を小さな文字列の単位に分割し各単位毎に辞書部の内
容とマッチングし同定する文章解析部と、前記文章解析
部の出力である読みを音声に変換する音声合成部と、前
記文章解析部に接続され文章中で前記辞書部に存在しな
かった未知語を見つける未知語検出手段と、前記未知語
の始まりと終わりの位置を検出する位置検出部と、前記
未知語の読みを表記から作成する未知語読み変換手段と
からなり、辞書部に存在しない未知語が文章中に存在し
た場合、未知語の始まりのところで文章解析を一時停止
し文章を後方にサーチし未知語の次にくる部分から文章
解析を再開し前記未知語の読みは表記から作成すること
を特徴とする。
〔作用〕
本発明は辞書中に存在しないカタカナ、或いは平仮名文
字列が文章中に存在した場合、そこで同定解析を一時ス
トップし文章を後方にサーチし、新たに同定できる単語
の始まりとわかる単語等から解析を再開し、解析を無視
した前記カタカナや平仮名は一字ずつ読みに変換し、音
声合成部に転送することにより文章を読上げるようにし
ている。
〔実施例〕
次に本発明の文章読上げ装置の実施例を図面を参照して
説明する。
第1図は本発明の文章読上げ装置の構成ブロック図であ
る。
主制御部1は汎用の計算機と同様に記憶装置内に予め貯
えられているプログラムを順次取り出してそれに従って
逐次制御を行う部分で、中央処理部と主記憶装置及び入
出力制御装置等から構成されている部分である。ディス
プレイ装置10、キーボード入力部11は主制御部1の
中の入出力制御装置に接続され、使用者である人間と文
章読上げ装置との間で情報交換を行う部分である。文書
ファイル2は読上げるべき文書が格納されているファイ
ルであり、一般にはフロッピィディスク装置、或いはデ
ィスク装置等の外部記憶装置に記憶されている。各文書
は文章ファイル2から文書入出力部3により読出され
る。この文章入出力部3は文書ファイル2の中から各文
書を主制御部1の制御のもとで文章解析部4に転送する
ことを制御する部分である。各文章は文字列の表記とし
て構成され、前記文字列は基本的には単語であるが文節
あるいは句でも良く、以下「単語等」と呼ぶことにす
る。文書ファイル2から文章入出力部3により読出され
た各文章は文章解析部4において「、」,「。」など記
号等で区切られ辞書部5に格納された単語等とのマッチ
ングによって単語等の同定が実行される。辞書部5は例
えば漢字を入出力しこれを仮名に変換する漢字仮名変換
辞書である。文章解析部4は文章入出力部3から出力さ
れた各文章のうち漢字等の単語が辞書部5に格納された
ものである場合には即座に読み変換することができ、規
則合成部6に変換された読みが与えられる。規則合成部
6は前記読みに対応する情報内容を音声の形で音声出力
部7から出力できるように処理する部分である。規則合
成部6及び音声出力部7から構成される音声合成部は音
声出力のためのデータを予め分析し記憶しておいて読み
に対応して単語等の文字列を音声で読上げる部分であ
る。
音声合成のためのデータ分析は波形符号化や線形予測分
析等すでに種々の分析技術が用いられており、音声波形
そのものについて符号化処理を行う波形処理系の処理を
用いても良く、また音声の生成モデルを根底としてその
制御信号をデータに用いる生成源処理系の処理を用いて
もよい。前者は単語や文節等の自然音声に含まれる音素
間の長音結合の特徴やアクセントあるいは抑揚等の特徴
がそのまま保持されるので音質がよいが予め分析してあ
る単語や文節の組み合わせ以外の音声出力は出力できな
いという欠点を有している。それに反し、後者の方法に
よれば出力したい単語や文章を音素や音節記号系列の形
で入力することになるので、任意の文章の文章に対して
合成できることになる。しかし音声のいろいろな特徴は
人工的に付加してやれらなければならないという問題が
ある。規則合成部6は特に音素あるいは音節による生成
源処理方法であり音素や音節単位の音声分析データを音
声生成モデルの制御信号に用いる形式に従っている。従
って規則合成部6は合成音の語彙数には制限がなく自然
音声に見られる長音結合や韻律特性によって音響的な性
質に関しては変形のしかたを規則化しているものであ
る。この音響的性質の変形を規則化し、これに基づいて
制御信号を変形することにより合成音の音質を自然音声
に非常に似たものになるように高めている。そしてこの
規則合成部6においては音素や音節記号あるいは文字の
系列だけを文章解析部4から読みとして入力すればそれ
に対応する任意の合成音を音声出力部7から出力するこ
とができる。規則合成部6を使って文書ファイル2の各
文章を文章解析部4の解析のもとで音声を合成する場合
には人間が書物を朗読する過程を実行できることが理想
であるので、各文章の文字列から単語等の境界の検出と
分割を行い、検出された単語等の音素記号列の変換過程
を経て、最後に単語のアクセントあるいは文のイントネ
ーションの付加を実行しなくてはならない。また、この
規則合成部6は一般に波形処理形よりも記憶容量が減ら
せるが回路構成が複雑になるのでワンチップのLSIで
ディジタル演算的に実行することによって、回路構成の
複雑性を減じることが必要である。さらに音声合成器の
動作に必要な制御信号を前もって記憶された音声データ
と決められた規則によって生成する必要がある。そのた
めのLSIとしてはホルマント形とPARCOR系の2
種類がある。例えばPARCOR系音声合成LSIはそ
れぞれ2個ずつの除算器と加算器とで構成された格子型
ディジタルフィルタを十段程度カスケードに接続して音
声を合成しているものである。このようなLSIを用い
て構成される規則合成部6は入力の文字列が規則に従っ
て音素系列に変換され例えば子音+母音+母音系のいわ
ゆるC-V−V音節と呼ばれる方式に従って分割される。
そして韻律的特徴に関しては前もって記憶された音響デ
ータの格納データを使って合成音声に対する基本周波
数、振幅、あるいは音素の継続時間等が決められる。こ
のような規則に従った合成音声の音質は日本語100音節
に対して明瞭度は90%以上であることが知られている。
文書ファイル2から文章入出力部3を介して読出された
各文章が単語単位あるいは文節単位等に分割され辞書部
5の単語等とマッチングされ同定される。その場合に辞
書部5において存在しない平仮名あるいはカタカナ等の
未知語が文章中に存在する場合がある。特に新聞記事等
においてはカタカナ文字列の固有名詞や新語あるいは強
調のためのカタカナ書きや漢字のかわりに平仮名にして
いる文章が多く存在しこのような文章を解析すると単語
の同定にかなりの高い確立で同定が失敗することがあ
る。そのために、そのままでは正しい文章が読上げるこ
とができなくなる。そこで本発明では文章解析部4に未
知語検出部40、再開位置検出部41及び未知語読み変
換部42が接続されこれらの回路を動作させることによ
って辞書部5の中にある単語等と文章中の単語等がマッ
チングがとれなかった場合にはこの未知語を無視してま
ず解析しその部分の読みは表記から補うことにより正し
い読上げを可能としている。すなわち辞書部5に存在し
ない平仮名、又はカタカナ等の未知語が文章中に存在し
た場合、単語の同定が出来なくなるため未知語検出部4
0でその未知語の位置Pを決定する。そして文章をそ
のまま後方にサーチして新たな単語の始まりとわかる漢
字、カタカナの表記の位置Pを再開位置検出部41で
見つける。そしてまず未知語の位置Pの前までの解析
を行いその後前記Pから再び解析を行う。そして未知
語読上げ変換部42において前記未知語の位置Pから
前記辞書部5に存在する単語のある単語位置Pの前ま
での未知語部分の読みを見つけ読みに変換され規則合成
部6に送られ音声合成され音声出力部7によって、文章
が読上げられる。
例えば1つの文章として「そこで プツリ と中断して
いる」という文章を本発明の文章読上げ装置によって読
上げる場合、「そこで」という先頭の文字列から解析を
始める。この場合、「そこで」という平仮名は辞書部5
に存在しこの言葉の同定は実行されるものとする。しか
し次の「プツリ」というカタカナは辞書中に単語として
存在しないと仮定する。従ってこの単語の同定ができな
くなるので未知語検出部40においてその未知語の位置
、すなわち「プ」という文字の位置をポインタとし
て記憶しておきそのまま文章を後方にサーチする。そし
て新たな単語の始まりとわかる漢字すなわち「中断」と
いう単語の位置Pすなわち「中」という文字の位置を
再開位置検出部41によって見つける。そこでPまで
の解析を行ったあと「プツリと」という未知語に関して
は解析を行わず、次の「中断している」という部分に対
して解析を再開する。その後PからPの前までの
「プツリと」という未知語部分の読みを一字ずつカタカ
ナにして未知語読み変換部42において読みを付ける。
すなわち「プツリと」の読みは表記からカタカナで「プ
ツリト」となる。以上の解析結果に従って前記文章はす
べてカタカナに変換され、カタカナで「ソコデプツリト
チュウダンシテイル」というカタカナに変換され、規則
合成部6へ読みとして与えられ音声合成され音声出力部
7から音声として出力される。
次に第1図の本発明の文章読上げ装置の動作を第2図の
フローチャートに従って説明する。第2図のフローチャ
ートによれば各文章は文章解析部4に入力され文章の各
単語等が辞書部5の単語等とマッチングされ同定され、
単語ラティスの作成が行われる。そして各文章において
カタカナあるいは平仮名の未知語が存在するかどうかを
判定する。もし未知語がなければ文章の始まりのポイン
タであるSPから文章の終わりの文字のポインタである
EPまでの文章を解析し解析結果を格納するWLIST
に解析結果を追加し、規則合成部6に転送する。しかし
もし、カタカナあるいは平仮名の未知語がある場合には
未知語の先頭文字のポインタPを未知語検出部40に
よって見つける。そして文章を後方にサーチする。サー
チした結果再び辞書に存在する単語の先頭の文字のポイ
ンタPを見つける。すなわち再開位置検出部41によ
って文章中で未知語の後の新たな単語の始まりとわかる
位置を見つける。その後文章の頭のポインタであるSP
から未知語の頭の文字のポインタであるPよりも1つ
前のP−1までの文章を解析し、解析結果を格納する
領域であるWLISTに追加する。次に未知語の先頭文
字であるPから未知語の終わりのポインタであるP
−1までの読みを一字ずつ表記から作り、前記WLIS
Tに追加する。すなわち未知語読み変換部42に従って
未知部の読みをWLISTに追加する。そしてPを文
章の始まりとしてSPにし、Pから解析を再開する。
その後再び未知語があるかないかのチェックを実行す
る。このような繰り返しに従って1つの文章の終わりま
で解析または未知語の読みをWLISTに追加すること
ができ、規則合成部6にその文章の読みすべてを転送し
音声合成に従って音声に変え、文章の読上げを実行する
ことを可能とする。
〔発明の効果〕
このように本発明の文章上げ装置は文章の中の単語等が
辞書中の単語等とマッチングが取れなかった未知語に対
しては文章解析を無視して他の部分を解析し、前記未知
語に対しては表記から読みを補うことにより正しい読上
げを可能とし、任意の文音声に対して合成できるという
効果がある。
【図面の簡単な説明】
第1図は本発明の文章読上げ装置の構成ブロック図、第
2図はその動作のフローチャートを示す。 1……主制御部、 2……文書ファイル、 3……文章入出力部、 4……文章解析部、 5……辞書部、 6……規則合成部、 7……音声出力部、 10……表示部、 11……入力部、 40……未知語検出部、 41……再開位置検出部、 42……未知語読み変換部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】文章を格納する文章ファイル部と、 前記文章ファイル部から文章を入力又は出力することを
    制御する文章入出力部と、 前記文章ファイル部から前記文章入出力部を介して読み
    出された文章を小さな文字列の単位に分割し各単位毎に
    辞書部の内容とマッチングし、同定する文章解析部と、 前記文章解析部の出力である読みを音声に変換する音声
    合成部と、 前記文章解析部に接続され文章中で前記辞書部に存在し
    なかった未知語を見つける未知語検出手段と、 前記未知語の始まりと終わりの位置を検出する位置検出
    部と、 前記未知語の読みを表記から作成する未知語読み変換手
    段とを有し、 前記辞書部に存在しない未知語が文章中に存在した場
    合、未知語の始まりのところで文章解析を一時停止し文
    章を後方にサーチし未知語の次にくる部分から文章解析
    を再開し前記未知語の読みは表記から作成することを特
    徴とする文章読上げ装置。
JP60260303A 1985-11-20 1985-11-20 文章読上げ装置 Expired - Lifetime JPH0634175B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60260303A JPH0634175B2 (ja) 1985-11-20 1985-11-20 文章読上げ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60260303A JPH0634175B2 (ja) 1985-11-20 1985-11-20 文章読上げ装置

Publications (2)

Publication Number Publication Date
JPS62119591A JPS62119591A (ja) 1987-05-30
JPH0634175B2 true JPH0634175B2 (ja) 1994-05-02

Family

ID=17346157

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60260303A Expired - Lifetime JPH0634175B2 (ja) 1985-11-20 1985-11-20 文章読上げ装置

Country Status (1)

Country Link
JP (1) JPH0634175B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245382A1 (en) * 2021-02-02 2022-08-04 Google Llc Generating Assistive Indications Based on Detected Characters

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01296373A (ja) * 1988-05-25 1989-11-29 Ricoh Co Ltd 未登録語処理方法
JP2801601B2 (ja) * 1988-06-23 1998-09-21 株式会社リコー テキスト音声合成装置
JP3315539B2 (ja) * 1994-10-21 2002-08-19 沖電気工業株式会社 テキスト音声変換システムの未定義コード検出装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840597A (ja) * 1981-09-02 1983-03-09 カシオ計算機株式会社 音声発生方式
JPS5878199A (ja) * 1981-11-04 1983-05-11 株式会社リコー 音声出力装置
JPS59127151A (ja) * 1982-12-29 1984-07-21 Fujitsu Ltd 文章読上げ装置
JPS60188995A (ja) * 1984-03-07 1985-09-26 日本電気株式会社 文章発声方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5840597A (ja) * 1981-09-02 1983-03-09 カシオ計算機株式会社 音声発生方式
JPS5878199A (ja) * 1981-11-04 1983-05-11 株式会社リコー 音声出力装置
JPS59127151A (ja) * 1982-12-29 1984-07-21 Fujitsu Ltd 文章読上げ装置
JPS60188995A (ja) * 1984-03-07 1985-09-26 日本電気株式会社 文章発声方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245382A1 (en) * 2021-02-02 2022-08-04 Google Llc Generating Assistive Indications Based on Detected Characters
US11769323B2 (en) * 2021-02-02 2023-09-26 Google Llc Generating assistive indications based on detected characters

Also Published As

Publication number Publication date
JPS62119591A (ja) 1987-05-30

Similar Documents

Publication Publication Date Title
US6952665B1 (en) Translating apparatus and method, and recording medium used therewith
JP2848458B2 (ja) 言語翻訳システム
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US7155390B2 (en) Speech information processing method and apparatus and storage medium using a segment pitch pattern model
US7010489B1 (en) Method for guiding text-to-speech output timing using speech recognition markers
Stöber et al. Speech synthesis using multilevel selection and concatenation of units from large speech corpora
Abujar et al. A comprehensive text analysis for Bengali TTS using unicode
JPH0634175B2 (ja) 文章読上げ装置
Greibus et al. The phoneme set influence for Lithuanian speech commands recognition accuracy
JP2003162524A (ja) 言語処理装置
JP2001117752A (ja) 情報処理装置および情報処理方法、並びに記録媒体
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
JP2001117922A (ja) 翻訳装置および翻訳方法、並びに記録媒体
JP2001117583A (ja) 音声認識装置および音声認識方法、並びに記録媒体
JP2000056788A (ja) 音声合成装置の韻律制御方法
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
Kato et al. Multilingualization of speech processing
JPH0229797A (ja) テキスト音声変換装置
JPH03217900A (ja) テキスト音声合成装置
Allen Speech synthesis from text
JPH05189194A (ja) 文書読み上げ装置
JPH02238494A (ja) 音声合成装置
IMRAN ADMAS UNIVERSITY SCHOOL OF POST GRADUATE STUDIES DEPARTMENT OF COMPUTER SCIENCE
JPH02234198A (ja) テキスト音声合成システム