JPH06337700A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JPH06337700A
JPH06337700A JP5127275A JP12727593A JPH06337700A JP H06337700 A JPH06337700 A JP H06337700A JP 5127275 A JP5127275 A JP 5127275A JP 12727593 A JP12727593 A JP 12727593A JP H06337700 A JPH06337700 A JP H06337700A
Authority
JP
Japan
Prior art keywords
voice
input
acoustic segment
segment network
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5127275A
Other languages
English (en)
Inventor
Kimu Kiyunho Rooken
キム キュンホ ローケン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5127275A priority Critical patent/JPH06337700A/ja
Publication of JPH06337700A publication Critical patent/JPH06337700A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 本発明は音声合成装置に関し、話者の音声に
極めて類似した合成音を容易に生成することを目的とす
る。 【構成】 話者の音声を入力する音声入力手段10と、入
力音声を受け所定の音響セグメントネットワークに基づ
き入力音声を認識する認識処理手段11と、合成音の対象
となる各単語に対応する音響セグメントネットワークを
格納する音響セグメントネットワーク格納手段13と、入
力音声の特徴と音響セグメントネットワークを比較判定
し、比較結果により音響セグメントネットワークを更新
し登録する音響セグメントネットワーク更新手段12と、
話者の音声を文字列による単語として入力する文字入力
手段14と、入力単語を音響セグメントネットワークに基
づき所定の音声合成処理によって合成する合成処理手段
15と、合成された音声を出力する合成音出力手段16とに
より構成される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はユーザ(話者)の音声に
類似した合成音声を出力する音声合成装置に関する。本
発明は最終的には音声対話機能を持った情報処理装置に
利用することができる。
【0002】
【従来の技術】従来の音声認識装置として、特開昭6
3─223793号公報「登録式音声入出力装置」、
特開昭63─183498号公報「登録式音声入出力装
置」、特開昭61─231600号公報「音声認識装
置」等がある。は、登録した話者の音声を合成音とし
て出力するものであり、予め話者の音声を特徴パラメー
タに変換し、使用時に入力音声と登録音声の類似度を計
算し、予め登録された特徴パラメータに最も類似したも
のを認識結果の合成音として出力するものである。な
お、類似度は周知のPARCOR分析により行う。
【0003】は、上記ではPARCOR分析を用い
ているが、本例ではADPCM合成を用いて類似度を求
める。は、特定話者に代わって音声登録することがで
きるもので、予め特定話者の登録語を、音声合成部によ
り合成した音声により自動的に登録処理するものであ
る。
【0004】図4は従来の音響セグメントネットワーク
を使用した音声合成装置の一例要部構成図である。図
中、41は音響セグメントネットワーク格納部、42は
文字入力部、43は合成処理部、44は合成音出力部で
ある。この方式は音響セグメントネットワーク格納部に
予め複数の音響セグメントネットワークを格納し、話者
から音声が入力されると、その音声に最も類似した音響
セグメントネットワークを抽出し、対応する合成音を生
成する方式である。
【0005】
【発明が解決しようとする課題】しかし上述の従来の方
法では、予め容易された複数の音響セグメントネットワ
ークから、話者の音声に最も類似するネットワークを抽
出する方法であるため、話者の音声との類似性において
まだ問題が多い。本発明の目的は、話者の音声に極めて
類似した合成音を容易に生成することにある。
【0006】
【課題を解決するための手段】図1は本発明の原理構成
図である。図示のように、本発明は話者の音声に類似し
た合成音を生成する音声合成装置であって、話者の音声
を入力する音声入力手段10と、該音声入力手段からの
入力音声を受け、所定の音響セグメントネットワークに
基づき該入力音声を認識する認識処理手段11と、合成
音の対象となる各単語に対応する音響セグメントネット
ワークを格納する音響セグメントネットワーク格納手段
13と、入力音声の特徴を抽出し、該特徴と該音響セグ
メントネットワーク格納部に格納されている音響セグメ
ントネットワークを比較判定し、比較結果による入力音
声の特徴に基づき該音響セグメントネットワークを更新
し登録する音響セグメントネットワーク更新手段12
と、話者の音声を文字列による単語として入力する文字
入力手段14と、該文字入力手段からの入力単語を、該
音響セグメントネットワークに基づき所定の音声合成処
理によって合成する合成処理手段15と、合成された音
声を出力する合成音出力手段16とを備え、話者の音声
の特徴を抽出し、その特徴を該音響セグメントネットワ
ーク格納手段に格納した後、該文字入力手段から入力さ
れた文字列を所定の音声合成処理によって該合成処理手
段が合成する際に、該音響セグメントネットワーク格納
手段に格納されている更新された音響セグメントネット
ワークに従って、合成音を生成し、その結果、話者の音
声と似た合成音を生成するようにしたことを特徴とす
る。
【0007】また、該音響セグメントネットワーク更新
手段12は、話者による入力音声の音響的な特徴を抽出
する特徴抽出部22と、抽出された特徴と該音響セグメ
ントネットワークに格納されている音響セグメントネッ
トワークを比較し判定する特徴判定部23と、該特徴判
定部の判定結果に基づき音響セグメントネットワークを
更新し登録する特徴登録部24とを有する。
【0008】さらに、話者が音声で入力した文章を分析
する入力解析部312と、タスクに関する知識を格納す
る知識ベース35と、話者からの入力に対し、該知識ベ
ースを参照し、所定の文を生成する文生成部38とをさ
らに備える。
【0009】
【作用】本発明によれば、例えば、マイクロホン等の音
声入力手段により、話者が音声を入力すると、その音声
の音響セグメントネットワークが格納され、一方、キー
ボード等の文字入力手段から、話者の音声の文字列を単
語入力すると、格納された音響セグメントネットワーク
に従って、話者の音声に類似した合成音を容易に生成す
ることができる。
【0010】
【実施例】図2は本発明の一実施例構成図である。20
は音声入力部、21は認識処理部、22は特徴抽出部、
23は特徴判定部、24は特徴登録部、25は音響セグ
メントネットワーク格納部、26は文字入力部、27は
合成処理部、28は音声出力部である。
【0011】音声入力部20は例えばマイクロホンであ
り、文字入力部26は例えばキーボードであり、音声出
力部28は例えばスピーカーである。音声認識処理部2
1はマイクロホンからの音声のパターンを認識する。特
徴抽出部22はユーザの音声の音響的な特徴を抽出す
る。特徴判定部23は音響セグメントネットワーク格納
部25に格納されている単語のネットワークと、特徴抽
出部22で抽出した音響的な特徴とを比べ、その差を判
定する。特徴登録部24は特徴判定部23で得られた特
徴を音響セグメントネットワークに格納する。音響セグ
メントネットワーク格納部25は認識或いは合成の対象
となる単語群の音響セグメントネットワークを格納す
る。合成処理部26はキーボードから入力された文字列
を合成音に変換する。
【0012】このような構成において、本実施例の動作
を以下に説明する。音響セグメントは、音素単位や音節
単位が考えられる。これを音声認識や合成の対象となる
各単語の様々な発音の変化を現すように規則によって接
続し、音響セグメントネットワークを生成した後、音響
セグメントネットワーク格納部25に登録する。
【0013】次に、ある特定ユーザが音声で入力した単
語の認識を行う際に、そのユーザの音声の音響的な特徴
を特徴抽出部22で抽出し、その結果を特徴判定部23
に渡す。特徴判定部23はその結果と音響セグメントネ
ットワーク格納部25に格納されている単語のネットワ
ークを比べ、その差の有無を判定する。その差がある場
合には特徴登録部24は音響セグメントネットワーク格
納部25にこれを登録することによりネットワークを更
新する。
【0014】合成処理部27はユーザがキーボードで入
力した文字列を合成音に変換する際に、音響セグメント
ネットワーク25に格納されている更新された音響セグ
メントネットワークを用いて合成音を出力することによ
り、ユーザの音声に近い合成音を生成する。図3は本発
明の他の実施例構成図である。本構成は音声対話システ
ムを示している。図中、30は音声入力手段としてのマ
イクロホン、31は音声認識処理部、32は認識結果の
表示手段としてのCRT、33はユーザの音声の音響的
な特徴を抽出する特徴抽出部、34は音響セグメントネ
ットワーク格納部36に格納されている単語のネットワ
ークと、特徴抽出部33で抽出した音響的な特徴を比
べ、その差を判定する特徴判定部、37は前記の特徴を
音響セグメントネットワーク格納部36に登録する特徴
登録部、36は認識や合成の対象となる単語群の音響セ
グメントネットワークを格納する音響セグメントネット
ワーク格納部、39は単語の文字列の入力手段であるキ
ーボード、310はキーボードから入力された文字列を
合成音に変換する合成処理部、311は合成音声の出力
手段であるスピーカー、35は話題のタスクに関する知
識を格納する知識ベース、38はユーザの入力に対して
前記の知識ベースを用いて所定の文を生成する文章生成
部、312はユーザが音声で入力した文を分析する入力
文分析部をそれぞれ示している。
【0015】タスクは、例えば、国際会議の要約、新幹
線切符の予約、或いは国内旅行案内等が例として考えら
れる。このようなタスクに関する知識、例えば、12月
出発の東北方面の旅行パッケージに関する情報を規則で
表現し、格納したのが知識ベースであり、これは、ユー
ザの音声による質問を分析し、適切な回答を文章として
生成する機能をシステムに与える。
【0016】
【発明の効果】以上説明したように、本発明によれば、
話者の音声に極めて類似した合成音を容易に生成するこ
とができる。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の一実施例構成図である。
【図3】本発明の他の実施例構成図である。
【図4】従来の一例構成図である。
【符号の説明】
10,20,30…音声入力部 11,21,31…認識処理部 12…音響セグメントネットワーク更新部 13,25,36…音響セグメントネットワーク格納部 14,26,39,42…文字入力部 15,27,43,310…合成処理部 16,28,44,311…合成音出力部 22,33…特徴抽出部 23,34…特徴判定部 24,37…特徴登録部 35…知識データベース 38…文章生成部 312…入力文解析部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 話者の音声に類似した合成音を生成する
    音声合成装置であって、 話者の音声を入力する音声入力手段(10)と、 該音声入力手段からの入力音声を受け、所定の音響セグ
    メントネットワークに基づき該入力音声を認識する認識
    処理手段(11)と、 該合成音の対象となる各単語に対応する音響セグメント
    ネットワークを格納する音響セグメントネットワーク格
    納手段(13)と、 該入力音声の特徴を抽出し、該特徴と該音響セグメント
    ネットワーク格納部に格納されている音響セグメントネ
    ットワークを比較判定し、比較結果による入力音声の特
    徴に基づき該音響セグメントネットワークを更新し登録
    する音響セグメントネットワーク更新手段(12)と、 話者の音声を文字列による単語として入力する文字入力
    手段(14)と、 該文字入力手段からの入力単語を、該音響セグメントネ
    ットワークに基づき所定の音声合成処理によって合成す
    る合成処理手段(15)と、 合成された音声を出力する合成音出力手段(16)とを
    備え、 話者の音声の特徴を抽出し、その特徴を該音響セグメン
    トネットワーク格納手段に格納した後、該文字入力手段
    から入力された文字列を所定の音声合成処理によって該
    合成処理手段が合成する際に、該音響セグメントネット
    ワーク格納手段に格納されている更新された音響セグメ
    ントネットワークに従って、合成音を生成し、その結
    果、話者の音声に類似した合成音を生成するようにした
    ことを特徴とする音声合成装置。
  2. 【請求項2】 該音響セグメントネットワーク更新手段
    (12)は、話者による入力音声の音響的な特徴を抽出
    する特徴抽出部(22)と、抽出された特徴と該音響セ
    グメントネットワークに格納されている音響セグメント
    ネットワークを比較し判定する特徴判定部(23)と、
    該特徴判定部の判定結果に基づき音響セグメントネット
    ワークを更新し登録する特徴登録部(24)とを有する
    請求項1に記載の音声合成装置。
  3. 【請求項3】 話者が音声で入力した文章を分析する入
    力解析部(312)と、最近の予約、案内等の情報であ
    るタスクに関する知識を格納する知識ベース(35)
    と、話者からの入力に対し、該知識ベースを参照し、所
    定の文を生成する文生成部(38)とを、さらに備えた
    請求項1に記載の音声合成装置。
JP5127275A 1993-05-28 1993-05-28 音声合成装置 Withdrawn JPH06337700A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5127275A JPH06337700A (ja) 1993-05-28 1993-05-28 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5127275A JPH06337700A (ja) 1993-05-28 1993-05-28 音声合成装置

Publications (1)

Publication Number Publication Date
JPH06337700A true JPH06337700A (ja) 1994-12-06

Family

ID=14955959

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5127275A Withdrawn JPH06337700A (ja) 1993-05-28 1993-05-28 音声合成装置

Country Status (1)

Country Link
JP (1) JPH06337700A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JP2012060506A (ja) * 2010-09-10 2012-03-22 Hitachi Ltd 外部機器制御装置、その外部機器制御方法及びプログラム
JP2014066916A (ja) * 2012-09-26 2014-04-17 Brother Ind Ltd 音声合成装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0916800A (ja) * 1995-07-04 1997-01-17 Fuji Electric Co Ltd 顔画像付き音声対話システム
JP2012060506A (ja) * 2010-09-10 2012-03-22 Hitachi Ltd 外部機器制御装置、その外部機器制御方法及びプログラム
JP2014066916A (ja) * 2012-09-26 2014-04-17 Brother Ind Ltd 音声合成装置

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
JPH10116089A (ja) 音声合成用の基本周波数テンプレートを収容する韻律データベース
JP2002511154A (ja) ユーザにオーディオ・フィードバックを与える拡張可能音声認識システム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH0883091A (ja) 音声認識装置
JPH11143346A (ja) 語学練習用発話評価方法およびその装置並びに発話評価処理プログラムを記憶した記憶媒体
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
Boite et al. A new approach towards keyword spotting.
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3039634B2 (ja) 音声認識装置
JP2003163951A (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
JPH06110835A (ja) 音声対話システムおよびその対話進行制御方法
JPH06337700A (ja) 音声合成装置
JPH1083195A (ja) 入力言語認識装置及び入力言語認識方法
JPH10173769A (ja) 音声メッセージ検索装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
JP3465334B2 (ja) 音声対話装置及び音声対話方法
JP4236502B2 (ja) 音声認識装置
JP3357752B2 (ja) パターンマッチング装置
JPH08110790A (ja) 音声認識装置
JPH1097270A (ja) 音声認識装置
JP3029654B2 (ja) 音声認識装置
JP2001175275A (ja) サブワード音響モデル生成方法および音声認識装置
JP2001228890A (ja) 音声認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20000801