JP3266157B2 - Voice enhancement device - Google Patents

Voice enhancement device

Info

Publication number
JP3266157B2
JP3266157B2 JP18081291A JP18081291A JP3266157B2 JP 3266157 B2 JP3266157 B2 JP 3266157B2 JP 18081291 A JP18081291 A JP 18081291A JP 18081291 A JP18081291 A JP 18081291A JP 3266157 B2 JP3266157 B2 JP 3266157B2
Authority
JP
Japan
Prior art keywords
voice
keyword
word
emphasized
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP18081291A
Other languages
Japanese (ja)
Other versions
JPH0527792A (en
Inventor
洋 浜田
克彦 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP18081291A priority Critical patent/JP3266157B2/en
Publication of JPH0527792A publication Critical patent/JPH0527792A/en
Application granted granted Critical
Publication of JP3266157B2 publication Critical patent/JP3266157B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】この発明は、人間同士が対話を行
う通信システムにおいて、人間間の意思疎通を円滑に行
うために、話題中の重要な語を強調して伝えるための音
声強調装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice emphasizing apparatus for emphasizing and transmitting important words in a topic in a communication system in which humans communicate with each other, in order to facilitate communication between humans. Things.

【0002】[0002]

【従来の技術】テレコミュニケーションが発達し、人間
同士が対面せず通信を介して対話をする機会が増加して
いる。例えば、コンサルティング、注文受け付け、故障
受け付け、予約受け付け、苦情受け付けなどは、ほとん
どの業務が電話などの通信手段を介して行われるように
なってきている。さらに、画像蓄積・通信技術、大容量
通信技術、などの進歩にともない、音声のみでなく、静
止画像、動画像と音声を組み合わせた通信も用いられる
ようになっており、通信のマルチメディア化は更に進む
ものと考えられる。しかし、人間同士が何れかの通信手
段を介してコミュニケーションを行う場合に、最も重要
かつ効果が大きいのは電話、すなわち、音声によるコミ
ュニケーションであることが知られている〔例えば、
A.Chapanis,“Studies in In
teractive Communication:I
I. The Effects of Four Com
munication Modes on the L
inguistic Performance of
Teams during Cooperative
Problem Solving”.Human Fa
ctors,19(2),pp.101−126(19
77)参照〕。
2. Description of the Related Art With the development of telecommunication, opportunities for humans to interact with each other via communication without facing each other are increasing. For example, consulting, order reception, failure reception, reservation reception, complaint reception, and the like are almost all performed through communication means such as telephones. Furthermore, with the advancement of image storage / communication technology, large-capacity communication technology, etc., not only audio but also communication that combines still images, moving images, and audio has been used. It is thought that it will go further. However, when humans communicate with each other through any communication means, it is known that the most important and effective is telephone communication, that is, voice communication [for example,
A. Chapanis, “Studies in In
teractive Communication: I
I. The Effects of Four Com
communication Modes on the L
inguistic Performance of
Teams durable Cooperative
Problem Solving ". Human Fa
ctors, 19 (2), pp. 101-126 (19
77)].

【0003】人間同士の対話において、両者の間で話題
や前提となる知識が一致していない場合、両者のコミュ
ニケーションを円滑に行うために要する時間がかかる、
誤った理解が生じることがある、などの問題がある。ま
た、人間はある意図をもって相手に話しかけるとき主題
となる語やキーワードを強調して発声するが、両者の前
提や知識が一致していない場合、または、他に作業しな
がら対話をしている場合など、必ずしもキーワードが一
致しないなどの問題があった。
[0003] In a dialogue between humans, if the topics and the prerequisite knowledge do not match, it takes a long time for smooth communication between the two.
There is a problem that incorrect understanding may occur. Also, when speaking to the other party with a certain intention, humans emphasize the words and keywords that are the subject, but they do not agree on the assumptions and knowledge of the two, or when they are talking while working on other things There was a problem that keywords did not always match.

【0004】[0004]

【問題を解決するための手段】この発明によれば、入力
音声から重要となる語、つまり強調すべき語(キーワー
ド)がキーワード検出部で検出され、その検出された強
調すべき語が強調処理部で強調処理され、入力音声が該
当部分を上記強調処理された語におきかえて音声出力部
から音声出力される。
According to the present invention, an important word from an input voice, that is, a word to be emphasized (keyword) is detected by a keyword detecting section, and the detected word to be emphasized is subjected to an emphasis process. The input voice is output from the voice output unit by replacing the corresponding portion with the emphasized word.

【0005】[0005]

【実施例】以下に、この発明の実施例を図面を用いて詳
細に説明する。図1にこの発明の一実施例を示す。音声
入力部11は、電話回線、マイクロホン等を通じて音声
を取り込み、アナログ信号をディジタル信号に変換する
処理を行ってキーワード検出部12へ供給する。キーワ
ード検出部12は入力音声中から強調すべき語を検出す
る。このためこの例では特徴抽出部13においてディジ
タル信号に変換された音声から、キーワード抽出処理を
行うための音声のスペクトル特徴のパラメータの抽出を
行う。この例では強調処理を行うための韻律的特徴のパ
ラメータの抽出も行う。音声のスペクトル的な特徴を表
すパラメータの分析法としては帯域通過フィルタ分析、
線形予測分析、FFT(高速フーリエ変換)分析など各
種のものが提案されており、後に行うキーワード抽出処
理の方式に合致した分析法を選択して行えば良い。例え
ば、線形予測分析法による場合は、LPCケプストラ
ム、自己相関関数などがパラメータとして良く用いられ
る。また、強調処理を行うための韻律的特徴として、音
声のパワー、基本周波数(ピッチ)を抽出する。なお、
分析法は、スペクトル特徴を表すパラメータと強調処理
により変形した韻律特徴を表すパラメータとから音声信
号として合成できる分析法でなければならない。
Embodiments of the present invention will be described below in detail with reference to the drawings. FIG. 1 shows an embodiment of the present invention. The voice input unit 11 captures voice through a telephone line, a microphone, or the like, performs a process of converting an analog signal into a digital signal, and supplies the digital signal to the keyword detection unit 12. The keyword detection unit 12 detects a word to be emphasized from the input voice. For this reason, in this example, the parameters of the spectral features of the voice for performing the keyword extraction processing are extracted from the voice converted into the digital signal in the feature extracting unit 13. In this example, parameters of prosodic features for performing the emphasis processing are also extracted. Bandpass filter analysis is used as a method of analyzing parameters representing spectral characteristics of voice,
Various types such as linear prediction analysis and FFT (Fast Fourier Transform) analysis have been proposed, and an analysis method that matches a method of keyword extraction processing performed later may be selected and performed. For example, in the case of the linear prediction analysis method, an LPC cepstrum, an autocorrelation function, and the like are often used as parameters. In addition, as a prosodic feature for performing the emphasis processing, the power of the voice and the fundamental frequency (pitch) are extracted. In addition,
The analysis method must be an analysis method that can be synthesized as a speech signal from a parameter representing a spectrum feature and a parameter representing a prosodic feature transformed by an enhancement process.

【0006】キーワード抽出部14では、入力された音
声の中からキーワード辞書15にあらかじめ登録された
キーワードの抽出を行う。キーワード抽出は、音声認識
技術のひとつであるワードスポッティングの技術を用い
て行うことができる。すなわち、あらかじめ抽出する必
要のある音声のパラメータ時系列をキーワード辞書15
に登録しておき、特徴抽出部13で得られたスペクトル
特徴を表す特徴パラメータの時系列と、キーワード辞書
15に登録されているキーワードのスペクトル特徴を表
すパラメータ時系列とを順次パターンマッチング法によ
り比較しながら、入力音声中に含まれるキーワード、つ
まり強調すべき語を検出する。パターンマッチングを行
う際には、音声の時間的な伸縮を考慮し、非線形伸縮を
吸収するマッチング法を用いる方法が良い。キーワード
辞書15に登録するキーワードは、該当する業務に応じ
てあらかじめ決定し、その音声のスペクトル特徴を表す
パラメータを蓄積しておく。例えば、テレホンショッピ
ングの受付であれば商品名や注文数を表す単語などがキ
ーワードとなる。
The keyword extraction unit 14 extracts a keyword registered in the keyword dictionary 15 from the input speech. Keyword extraction can be performed using word spotting technology, which is one of voice recognition technologies. That is, the parameter time series of speech that needs to be extracted in advance is stored in the keyword dictionary 15.
, And sequentially compares the time series of the feature parameters representing the spectrum features obtained by the feature extraction unit 13 with the parameter time series representing the spectrum features of the keywords registered in the keyword dictionary 15 by the pattern matching method. Meanwhile, a keyword included in the input voice, that is, a word to be emphasized is detected. When performing pattern matching, it is preferable to use a matching method that absorbs nonlinear expansion and contraction in consideration of temporal expansion and contraction of voice. The keywords to be registered in the keyword dictionary 15 are determined in advance according to the corresponding task, and parameters representing the spectral characteristics of the voice are stored. For example, in the case of telephone shopping reception, a keyword representing a product name or an order quantity is used as a keyword.

【0007】強調処理部16では、入力音声からキーワ
ード検出部12で抽出したキーワードの強調処理を行
う。このため特徴抽出部13から抽出された基本周波
数、音声パワー等の韻律特徴が韻律特徴蓄積部17に蓄
積される。また、特徴抽出部13で抽出されたスペクト
ル特徴量は、キーワード抽出に用いられた後、スペクト
ル特徴蓄積部18に蓄積される。また、キーワード抽出
部14で抽出されたキーワード区間の情報は、キーワー
ド区間蓄積部19に蓄積される。特徴量変形処理部21
では、抽出されたキーワード区間に対して韻律特徴量、
スペクトル特徴量などを変形処理することにより、該当
するキーワード区間の強調を行う。
[0007] The emphasis processing section 16 performs emphasis processing on the keywords extracted by the keyword detection section 12 from the input speech. Therefore, the prosody features such as the fundamental frequency and the audio power extracted from the feature extraction unit 13 are stored in the prosody feature storage unit 17. Further, the spectrum feature quantity extracted by the feature extraction unit 13 is stored in the spectrum feature storage unit 18 after being used for keyword extraction. The information on the keyword sections extracted by the keyword extracting unit 14 is stored in the keyword section storing unit 19. Feature amount deformation processing unit 21
Then, the prosodic feature amount for the extracted keyword section,
By subjecting the spectral feature and the like to deformation processing, the corresponding keyword section is emphasized.

【0008】請求項2の発明によるキーワードの少くと
も前にポーズ(無音区間)を挿入する場合の特徴量変形
処理を図2の例に従って説明する。入力音声22中にキ
ーワード23が図2Aに示すように検出された場合、そ
のキーワード23に相当する音声区間24の前後に図2
Bに示すように長さX1 のポーズ25、長さX2 のポー
ズ26(X1 >0、X2 ≧0)を挿入し、さらに、各ポ
ーズ25、26における前後の音声のパワーの不連続を
解消するため音声パワーの平滑化処理を行う(図2
C)。人間の音声パワーに対する知覚は、対数音声パワ
ーに比例していることが良く知られており、平滑化の処
理は対数パワーに対して行う方が良い。キーワードの後
ろにはポーズ26を挿入しなくても、強調の効果は出
る。また、挿入する場合も、前のポーズ25の長さX1
より短くて良い。X1 ,X2 は例えば0.5〜1.5秒
程度がよく、通常の音声の切れ目にポーズ25を入れる
場合は1.5〜2.5秒程度が好ましい。
[0008] A feature amount deformation process when a pause (silence section) is inserted at least before a keyword according to the second aspect of the present invention will be described with reference to the example of FIG. When a keyword 23 is detected in the input voice 22 as shown in FIG. 2A, before and after a voice section 24 corresponding to the keyword 23, as shown in FIG.
Pose 25 length X 1 as shown in B, insert a pause 26 of length X 2 (X 1> 0, X 2 ≧ 0), further, not before and after the speech power in each pose 25,26 A smoothing process of audio power is performed to eliminate continuity (FIG. 2).
C). It is well known that human perception of audio power is proportional to logarithmic audio power, and it is better to perform smoothing processing on logarithmic power. Even if the pause 26 is not inserted after the keyword, the effect of emphasis is obtained. Also, when inserting, the length X 1 of the previous pose 25
It may be shorter. X 1 and X 2 are preferably, for example, about 0.5 to 1.5 seconds, and preferably about 1.5 to 2.5 seconds when a pause 25 is inserted between normal voices.

【0009】請求項3の発明によるキーワードに相当す
る音声区間の基本周波数を高く設定することによる強調
処理する場合を図3の例に従って説明する。入力音声2
2中にキーワード23が図3Aに示すように検出された
場合、そのキーワードに相当する音声区間24の基本周
波数(ピッチ)を図3Bに示すように高く設定し、さら
に、キーワードの始端、終端部分での基本周波数の不連
続を解消するため基本周波数平滑化を行う(図3C)。
基本周波数を処理する場合においても、人間の基本周波
数の知覚が基本周波数の対数に比例していることを考慮
し、対数軸上で処理することが望ましい。基本周波数を
高く設定する方法としては、下記に示すように予め定め
た係数aを対数で表現した基本周波数log(Fi)に
乗ずる方法と、 log(Fi′)=a×log(Fi) Fi、Fi′は、それぞれ、i時点での強調前の基本周
波数、強調後の基本周波数。
A case in which the emphasis process is performed by setting the fundamental frequency of the voice section corresponding to the keyword high according to the invention of claim 3 will be described with reference to the example of FIG. Input audio 2
3A, when the keyword 23 is detected as shown in FIG. 3A, the fundamental frequency (pitch) of the voice section 24 corresponding to the keyword is set high as shown in FIG. 3B. In order to eliminate the discontinuity of the fundamental frequency in the above, the fundamental frequency is smoothed (FIG. 3C).
Also in the case of processing the fundamental frequency, it is desirable to perform the processing on the logarithmic axis in consideration of the fact that human perception of the fundamental frequency is proportional to the logarithm of the fundamental frequency. As a method of setting the fundamental frequency high, a method of multiplying a fundamental coefficient log (Fi) expressed by a logarithm with a predetermined coefficient a as shown below, and a method of log (Fi ′) = a × log (Fi) Fi, Fi 'is the fundamental frequency before emphasis at the time i and the fundamental frequency after emphasis.

【0010】下記に示すように対数で表現した基本周波
数log(Fi)に対し、一定の値bを加算する方法と log(Fi′)=log(Fi)+b など種々の方法があるが、計算量等を考慮して決定すれ
ば良い。また、a、bの値を変えることにより強調の程
度を制御することが可能である。aとしては1.05程
度、bとしては0.1程度がよい。対数軸上で処理しな
い場合は、乗算は1.1〜1.2倍、加算は男性につい
ては20〜30Hz、女性については40〜50Hz程
度が好ましい。
As shown below, there are various methods such as a method of adding a fixed value b to a fundamental frequency log (Fi) expressed by a logarithm and a method of log (Fi ') = log (Fi) + b. The amount may be determined in consideration of the amount and the like. The degree of emphasis can be controlled by changing the values of a and b. a is preferably about 1.05, and b is preferably about 0.1. When processing is not performed on a logarithmic axis, multiplication is preferably 1.1 to 1.2 times, and addition is preferably about 20 to 30 Hz for men and about 40 to 50 Hz for women.

【0011】請求項4の発明によるキーワードに相当す
る音声区間の音声パワーを大に設定することによる強調
処理する場合を図4の例に従って説明する。入力音声2
2中にキーワード23が図4Aに示すように検出された
場合、そのキーワード23に相当する音声区間24の音
声パワーを図4Bに示すように大きく設定し、さらに、
キーワード23の始端、終端部分での音声パワーの不連
続を解消するため音声パワー平滑化を行う(図4C)。
また、音声パワーの処理に際しては、人間の音声のパワ
ーに関する知覚が音声パワーの対数に比例していること
を考慮し、対数軸上で行う方が効果が大きい。音声パワ
ーを大きく設定する方法としては、下記に示すように、
予め定めた係数cを対数で表現した音声パワーlog
(Pi)に乗ずる方法と、 log(Pi′)=c×log(Pi) Pi、Pi′は、それぞれ、i時点での強調前の音声パ
ワー、強調後の音声パワー。
A case where the emphasis processing is performed by setting the audio power of an audio section corresponding to a keyword to be large according to the invention of claim 4 will be described with reference to the example of FIG. Input audio 2
4A, when the keyword 23 is detected as shown in FIG. 4A, the voice power of the voice section 24 corresponding to the keyword 23 is set to be large as shown in FIG.
Audio power smoothing is performed to eliminate discontinuity in audio power at the beginning and end of keyword 23 (FIG. 4C).
Also, when processing the audio power, it is more effective to perform the processing on the logarithmic axis in consideration of the fact that the human perception of the power of the audio is proportional to the logarithm of the audio power. One way to increase the audio power is as follows:
Audio power log which expresses predetermined coefficient c in logarithm
(Pi) multiplication method; log (Pi ') = c * log (Pi) Pi and Pi' are the sound power before emphasis at the time i and the sound power after emphasis, respectively.

【0012】下記に示すように対数で表現した音声パワ
ーに対し、一定の値dを加算する方法と、 log(Pi′)=log(Pi)+d など種々の方法があり、また、対数で表現しない場合に
おいても同様の効果が得られるが、計算量等を考慮して
いずれの方法を採用するか決定すれば良い。この時、
c、dの値を制御することにより、強調の程度を変える
ことが可能である。何れにしても入力パワーに応じて適
当に決められるが、例えば、対数パワーで1、2倍程度
にされる。
As shown below, there are various methods such as a method of adding a constant value d to the voice power expressed by a logarithm and a method of log (Pi ') = log (Pi) + d. Although the same effect can be obtained even when not performed, it is only necessary to determine which method is to be adopted in consideration of the amount of calculation and the like. At this time,
The degree of emphasis can be changed by controlling the values of c and d. In any case, it is appropriately determined according to the input power. For example, the logarithmic power is made about one or two times.

【0013】請求項5の発明によるキーワードに相当す
る音声区間の前に警報音を挿入することにより強調処理
する場合を図2の例に従って説明する。まず、図2Aに
示すように入力音声中にキーワードが検出された場合、
そのキーワードの前後に前述したように無音区間を挿入
(図2B)、その各前後の平滑化処理をする(図2
C)。つぎに、図2Dに示すように前後の無音区間2
5、26に、ブザー、チャイム等受信者の注意を喚起す
る警報音27、28をそれぞれ挿入する。警報音はキー
ワードの前のみに挿入しても強調効果は得られる。
A case in which an emphasis process is performed by inserting a warning sound before a voice section corresponding to a keyword according to the invention of claim 5 will be described with reference to the example of FIG. First, when a keyword is detected in the input voice as shown in FIG. 2A,
As described above, silence sections are inserted before and after the keyword (FIG. 2B), and smoothing processing is performed before and after each section (FIG. 2).
C). Next, as shown in FIG.
Warning sounds 27 and 28 for calling the receiver's attention, such as a buzzer and a chime, are inserted into 5 and 26, respectively. Even if the warning sound is inserted only before the keyword, the emphasis effect can be obtained.

【0014】請求項6の発明によりキーワードに相当す
る音声区間を長くして強調処理する場合を図5の例に従
って説明する。まず、キーワードが図5Aに示すように
検出された場合、そのキーワード区間のみ、特徴抽出部
13における特徴分析の分析フレーム長Tiに対して、
あらかじめ定めた係数eを乗じた Ti′=e×Ti をフレーム長として出力速度(再生)をゆっくり行う
(図5B)。すなわち、韻律特徴蓄積部17およびスペ
クトル特徴蓄積部18に蓄積された特徴を、キーワード
区間の長さがもとの長さTaに対して定数e倍になるよ
うに補間して出力する。この結果、キーワード区間はゆ
っくり発声されたことになり、キーワード区間のみ強調
する効果が得られる。なお、音声出力時の基本周波数は
もとの音声と同じとし、区間長のみを変形すれば音声の
自然性は保存される。eとしては1.2〜1.4程度が
よい。
A case in which a voice section corresponding to a keyword is lengthened and emphasized according to the invention of claim 6 will be described with reference to the example of FIG. First, when a keyword is detected as shown in FIG. 5A, only the keyword section is determined with respect to the analysis frame length Ti of the feature analysis in the feature extracting unit 13.
The output speed (reproduction) is slowly performed using Ti ′ = e × Ti multiplied by a predetermined coefficient e as the frame length (FIG. 5B). That is, the features stored in the prosodic feature storage unit 17 and the spectrum feature storage unit 18 are interpolated and output so that the length of the keyword section is a constant e times the original length Ta. As a result, the keyword section is uttered slowly, and an effect of emphasizing only the keyword section is obtained. Note that the fundamental frequency at the time of sound output is the same as the original sound, and the naturalness of the sound is preserved by modifying only the section length. e is preferably about 1.2 to 1.4.

【0015】請求項2〜6の各発明による強調処理を複
数組み合わせることにより更に大きな強調効果が期待で
きる。以上のように強調処理部16で強調処理されたキ
ーワードのパラメータを入力音声パラメータの該当部分
に取り替え挿入し、その音声のパラメータを、音声合成
部31において再度音声信号として合成され、音声出力
部32でディジタル信号からアナログ信号に変換されて
音声出力される。
A greater emphasis effect can be expected by combining a plurality of emphasis processes according to each of the second to sixth aspects of the present invention. As described above, the parameters of the keyword emphasized by the emphasis processing unit 16 are replaced with corresponding portions of the input speech parameters and inserted, and the speech parameters are synthesized again as a speech signal in the speech synthesis unit 31, and the speech output unit 32 Is converted from a digital signal to an analog signal and output as sound.

【0016】図1に示した処理をテレホンショッピング
(注文受付)に適用すると、例えば、「新聞で見たので
すが、広告にのっていたネクタイを買いたいのですが。
同じものを3本お願いします。」という顧客(利用者)
の発声が、「新聞でみたのですが、広告にのっていた
ネクタイ を買いたいのですが。同じものを 3本 お願
いします。」( は、音声のポーズ(無音区間)を表
す)のように、「ネクタイ」と「3本」の前後にポーズ
が挿入されることにより、注文受付を行うオペレータに
とって商品名と数量が強調された音声として聞くことが
できるようになる。この例ではキーワードの前後にポー
ズを挿入することにより強調を行っているが、音声パワ
ーを大きく設定することにより強調した場合、または、
基本周波数を高く設定することにより強調した場合にお
いても、「ネクタイ」と「3本」が、強く発声される、
または、高いピッチで発声されることにより強調され、
オペレータは容易に注文内容を聞き取ることが可能にな
る。
The processing shown in FIG.
When applied to (order acceptance), for example,
I want to buy the tie on the ad.
I would like three of the same. ”Customer (user)
Said, "I saw it in the newspaper,
tie I want to buy The same Three Wish
I will. " Indicates the pause of the voice (silent section)
Pose) before and after "tie" and "three"
Is inserted, allowing the operator to accept orders
It can be heard as a voice with the product name and quantity emphasized
become able to. In this example, before and after the keyword
Although emphasis is performed by inserting
Is emphasized by setting a large value, or
When emphasized by setting the fundamental frequency high
Even if it is, "tie" and "three" are strongly uttered,
Or, emphasized by being uttered at a high pitch,
Operators can easily hear orders.
You.

【0017】[0017]

【発明の効果】以上説明したように、この発明の音声強
調装置によれば、人間同士の対話において、該当する話
題に相当するキーワードを自動的に強調することができ
るため、前提となる知識が異なる場合、話題が一致して
いない場合、においても、コミュニケーションが図り易
くなり、対話による業務に要する時間の短縮、人間に対
する負担の軽減につながるという利点がある。
As described above, according to the voice emphasizing device of the present invention, in a conversation between humans, a keyword corresponding to a relevant topic can be automatically emphasized. In the case of different topics, even when the topics do not match, communication is facilitated, and there is an advantage that the time required for work by dialogue is reduced and the burden on humans is reduced.

【図面の簡単な説明】[Brief description of the drawings]

【図1】この発明による音声強調装置の一実施例を示す
ブロック図。
FIG. 1 is a block diagram showing one embodiment of a speech enhancement device according to the present invention.

【図2】キーワードの前後にポーズを挿入する、キーワ
ードの前後に警報音を挿入する例を示す図。
FIG. 2 is a diagram showing an example of inserting a pause before and after a keyword, and inserting an alarm sound before and after a keyword.

【図3】キーワード区間の基本周波数を高く設定する例
を示す図。
FIG. 3 is a diagram showing an example in which a fundamental frequency in a keyword section is set high.

【図4】キーワード区間の音声パワーを大きく設定する
例を示す図。
FIG. 4 is a diagram showing an example in which audio power in a keyword section is set to be large.

【図5】キーワード区間に相当する音声をゆっくり再生
する例を示す図。
FIG. 5 is a diagram showing an example in which voice corresponding to a keyword section is reproduced slowly.

フロントページの続き (56)参考文献 特開 昭62−102296(JP,A) 特開 昭63−173100(JP,A) 特開 昭64−88599(JP,A) 特開 平1−140369(JP,A) 特開 平1−204100(JP,A) 特開 平1−255925(JP,A) 特開 平3−78800(JP,A) 特開 平3−196197(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G10L 15/10 Continuation of front page (56) References JP-A-62-102296 (JP, A) JP-A-63-173100 (JP, A) JP-A-64-88599 (JP, A) JP-A-1-140369 (JP) JP-A-1-204100 (JP, A) JP-A-1-255925 (JP, A) JP-A-3-78800 (JP, A) JP-A-3-196197 (JP, A) (58) Field surveyed (Int.Cl. 7 , DB name) G10L 13/00-13/08 G10L 15/10

Claims (6)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力音声中から強調すべき語を検出する
キーワード検出部と、 その抽出された強調すべき語を強調処理する強調処理部
と、 上記入力音声を、上記検出された強調すべき語を上記強
調処理された語におきかえて音声出力する音声出力部
と、 を具備する音声強調装置。
1. A keyword detecting section for detecting a word to be emphasized from an input voice, an emphasizing processing section for emphasizing the extracted word to be emphasized, and A voice output unit that outputs a voice by replacing the word with the word subjected to the emphasis processing.
【請求項2】 上記強調処理部は強調すべき語に相当す
る音声区間の前または前後にポーズを挿入するものであ
ることを特徴とする請求項1記載の音声強調装置。
2. The voice emphasizing device according to claim 1, wherein the emphasis processing section inserts a pause before or before or after a voice section corresponding to a word to be emphasized.
【請求項3】 上記強調処理部は強調すべき語に相当す
る音声区間の基本周波数を高くするものであることを特
徴とする請求項1記載の音声強調装置。
3. The voice emphasizing device according to claim 1, wherein the emphasis processing section raises a fundamental frequency of a voice section corresponding to a word to be emphasized.
【請求項4】 上記強調処理部は強調すべき語に相当す
る音声区間のパワーを大とするものであることを特徴と
する請求項1記載の音声強調装置。
4. The voice emphasizing device according to claim 1, wherein the emphasis processing section increases the power of a voice section corresponding to a word to be emphasized.
【請求項5】 上記強調処理部は強調すべき語に相当す
る音声区間の前に警報音を挿入するものであることを特
徴とする請求項1記載の音声強調装置。
5. The voice emphasizing device according to claim 1, wherein the emphasis processing section inserts an alarm sound before a voice section corresponding to a word to be emphasized.
【請求項6】 上記強調処理部は、強調すべき語に相当
する音声区間をあらかじめ定めた定数倍長くするもので
あることを特徴とする請求項1記載の音声強調装置。
6. The voice emphasizing device according to claim 1, wherein the emphasis processing section lengthens a voice section corresponding to a word to be emphasized by a predetermined constant.
JP18081291A 1991-07-22 1991-07-22 Voice enhancement device Expired - Lifetime JP3266157B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18081291A JP3266157B2 (en) 1991-07-22 1991-07-22 Voice enhancement device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18081291A JP3266157B2 (en) 1991-07-22 1991-07-22 Voice enhancement device

Publications (2)

Publication Number Publication Date
JPH0527792A JPH0527792A (en) 1993-02-05
JP3266157B2 true JP3266157B2 (en) 2002-03-18

Family

ID=16089790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18081291A Expired - Lifetime JP3266157B2 (en) 1991-07-22 1991-07-22 Voice enhancement device

Country Status (1)

Country Link
JP (1) JP3266157B2 (en)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3762327B2 (en) * 2002-04-24 2006-04-05 株式会社東芝 Speech recognition method, speech recognition apparatus, and speech recognition program
JP4038211B2 (en) 2003-01-20 2008-01-23 富士通株式会社 Speech synthesis apparatus, speech synthesis method, and speech synthesis system
JP2005062420A (en) * 2003-08-11 2005-03-10 Nec Corp System, method, and program for content generation
US7643991B2 (en) * 2004-08-12 2010-01-05 Nuance Communications, Inc. Speech enhancement for electronic voiced messages
JP4757130B2 (en) * 2006-07-20 2011-08-24 富士通株式会社 Pitch conversion method and apparatus
JP2008145841A (en) * 2006-12-12 2008-06-26 Sony Corp Reproduction device, reproduction method, signal processing device and signal processing method
JP5186943B2 (en) * 2008-02-15 2013-04-24 ヤマハ株式会社 Audio processing device, playback device, and program
JP2010175717A (en) * 2009-01-28 2010-08-12 Mitsubishi Electric Corp Speech synthesizer
JP5716595B2 (en) 2011-01-28 2015-05-13 富士通株式会社 Audio correction apparatus, audio correction method, and audio correction program
JP6405653B2 (en) * 2014-03-11 2018-10-17 日本電気株式会社 Audio output device and audio output method

Also Published As

Publication number Publication date
JPH0527792A (en) 1993-02-05

Similar Documents

Publication Publication Date Title
JP4391701B2 (en) System and method for segmentation and recognition of speech signals
CN109065067A (en) A kind of conference terminal voice de-noising method based on neural network model
JPH0876788A (en) Detection method of easy-to-confuse word in voice recognition
EP1093112B1 (en) A method for generating speech feature signals and an apparatus for carrying through this method
JP3266157B2 (en) Voice enhancement device
Kumar Comparative performance evaluation of MMSE-based speech enhancement techniques through simulation and real-time implementation
CN110663080A (en) Method and apparatus for dynamically modifying the timbre of speech by frequency shifting of spectral envelope formants
US6738457B1 (en) Voice processing system
CN112053702B (en) Voice processing method and device and electronic equipment
JPH0644195B2 (en) Speech analysis and synthesis system having energy normalization and unvoiced frame suppression function and method thereof
JP3240908B2 (en) Voice conversion method
Morise et al. Low-Dimensional Representation of Spectral Envelope Without Deterioration for Full-Band Speech Analysis/Synthesis System.
JP3249567B2 (en) Method and apparatus for converting speech speed
JPH0518118B2 (en)
JP3183104B2 (en) Noise reduction device
JP3354252B2 (en) Voice recognition device
JP2797861B2 (en) Voice detection method and voice detection device
JP3555490B2 (en) Voice conversion system
US5692103A (en) Method of speech recognition with learning
JP3512398B2 (en) Audio processing device
JPH08110796A (en) Voice emphasizing method and device
Rosell An introduction to front-end processing and acoustic features for automatic speech recognition
JP2863214B2 (en) Noise removal device and speech recognition device using the device
Nikhate et al. Determination of Extent of Similarity between Mimic and Genuine Voice Signals Using MFCC Features
JPS5999500A (en) Voice recognition method

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090111

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100111

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110111

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 10

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120111

Year of fee payment: 10