JP2000081897A - 音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置 - Google Patents

音声情報の記録方法、音声情報記録媒体、並びに音声情報の再生方法及び再生装置

Info

Publication number
JP2000081897A
JP2000081897A JP10249672A JP24967298A JP2000081897A JP 2000081897 A JP2000081897 A JP 2000081897A JP 10249672 A JP10249672 A JP 10249672A JP 24967298 A JP24967298 A JP 24967298A JP 2000081897 A JP2000081897 A JP 2000081897A
Authority
JP
Japan
Prior art keywords
audio information
audio
information sequence
information
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10249672A
Other languages
English (en)
Other versions
JP3617603B2 (ja
Inventor
Hiroshi Sekiguchi
博司 関口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KANAASU DATA KK
Original Assignee
KANAASU DATA KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KANAASU DATA KK filed Critical KANAASU DATA KK
Priority to JP24967298A priority Critical patent/JP3617603B2/ja
Publication of JP2000081897A publication Critical patent/JP2000081897A/ja
Application granted granted Critical
Publication of JP3617603B2 publication Critical patent/JP3617603B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

(57)【要約】 【課題】 日本人英語学習者のヒヤリング練習用の音声
として、任意の部分において元の音声情報自体の周波数
成分を変えることなく再生時間を伸長・短縮及び強調・
減衰された音声情報を提供する。 【解決手段】 この発明に係る記録方法は、第1周期で
サンプリングされた第1音声情報列を複数の周波数成分
に分割し、これら各周波数成分について、第2周期で順
次抽出された振幅情報列に対して所定部分の振幅及び所
定部分に波形数が変更された正弦波データを生成し、こ
れら各周波数成分に相当する正弦波データを加算して合
成された第2音声情報列を所定の記録媒体に記録する。
これにより、得られた記録媒体には、周波数を変えるこ
となく任意の部分で伸長・短縮及び強調・減衰された音
声情報列が記録される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、CD−ROM、
MD、MO等の円盤状記録媒体やDAT等のテープ状記
録媒体に音声情報を記録する音声情報の記録方法、該音
声情報が記録された音声情報記録媒体、並びに該音声情
報記録媒体に記録された音声情報列を読み出し再生する
ための音声情報の再生方法及び再生装置に関するもので
ある。
【0002】
【従来の技術】従来から、英会話等の語学の独習用、詩
吟の練習用、法律の独習用、その他の目的のために、カ
セットテープ等の記録媒体に音声情報が記録された教材
が種々提供されている。ここで、英会話の独習用の教材
を例に説明すると、従来の主な記録媒体は、例えば一連
の英語の発声(音声情報)が記録されてたカセットテー
プ(又はレコード)であり、学習者はこのテープ教材と
テキストとを組み合せて使用していた。なお、このよう
な教材には、初級用から上級用まで種々のレベルが用意
されている。
【0003】また、日本国特許第2581700号に
は、複数の区画に区分された上級者学習用に適した音声
情報列(ナチュラルスピードの発生音)が記録された第
1領域と、これら各区画に対応した等価な区画からなる
初級者学習用に適した音声情報列(はっきりとした発生
音であって、言語学上は同一の意味で派生の異なる音
声)が記録された第2領域と、該上級者学習用及び初級
者学習用の各音声情報列の対応する各区画の関係を、こ
れら音声情報列の各区画の記録媒体における記録位置で
示す情報が記録された第3領域とを、少なくとも備えた
CD−ROM等の情報記録媒体、及びこのような構造を
備えた情報記録媒体の対応する区画間での切替え再生等
を含む再生方法が提案されている。
【0004】
【発明が解決しようとする課題】上述のように、日本国
特許第2581700号の情報記録媒体には、該媒体上
の第1領域にネイティブスピーカーの発生音が記録さ
れ、また第2領域に言語上は同一の意味で遅緩した発音
で構成された音声情報列が記録されている。したがっ
て、第1領域に記録された音声情報列が再生されている
最中に再生音を聞き取れなかった場合、第2領域に記録
された同一内容の音声情報列(第1音声情報列の再生中
の区画と第2音声情報列の再生すべき区画との対応は第
3領域に記録されている)を切替えて再生することによ
り、学習者は聞き取れなかった音声の意味を理解するこ
とができる。
【0005】しかしながら、英語学習者は上述のように
第2領域に記録されている情報を聞くことにより第1領
域に記録された情報を理解することはできても、依然と
して該第1領域に記録されている情報、取り分け聞き取
れない音は単に繰り返し聞いただけでは聞き取れるよう
にはならない。日本人英語学習者の場合、日本語にない
音素特に子音の聞き取りが苦手であり、ネイティブスピ
ーカーとの会話に支障をきたしていることは周知であ
る。
【0006】この発明は聞き取り難い部分が学習者にと
って聞き取りやすいように予め編集された音声を聞かせ
ることで、元の音声に対するヒヤリング能力を向上させ
る技術に関し、英語学習者のヒヤリング練習用の音声情
報として、元の音声情報自体の周波数成分を変えること
なく選択的に周波数成分の振幅、再生時間が編集された
音声情報の記録方法、音声情報記録媒体、並びに音声情
報の再生方法及び再生装置を提供することを目的として
いる。
【0007】
【課題を解決するための手段】この発明は、ヒヤリング
練習用の音声として、取り込まれた音声情報列の周波数
成分を変えることなく、該音声情報列の所望の部分を強
調あるいは減衰させたり、また再生時間を部分的に伸長
あるいは短縮させた音声情報列を新たに生成、記録、再
生する技術に関するものである。この発明では、再生さ
れる音声情報の音質を変えないため、サンプリングされ
た音声情報に対してではなく、該音声情報の各周波数成
分に対して所望の編集を行い、これら編集された周波数
成分を合成して新たな音声情報列を得ている。この構成
により、日本人英語学習者にとって聞き取り難い部分が
選択的に強調及び/又は伸長されたヒヤリング練習用の
音声情報の提供を可能にする。また、上級者がヒヤリン
グ能力のさらなる向上を望む場合には、逆に音声が選択
的に減衰されたり再生時間が短縮された音声情報の提供
を可能にする。
【0008】具体的にこの発明に係る音声情報の記録方
法は、第1周期(例えば音楽CDの音響クロック44.
1KHz)でサンプリングされた第1音声情報列を複数
の周波数成分(以下、チャネルという)に分割し、第2
周期(例えば1波形を形成するために必要なデータ数に
相当)で各チャネルごとにその振幅情報を得る。なお、
この振幅情報は第1音声情報列の例えば100データ分
に相当する波形の振幅変化量で与えられ、もし100デ
ータ分で1波形が形成されない場合には1波形できるデ
ータ数に増やして(第2周期を長くして)抽出される。
なお、この第2周期は規則性のある周期であればよい。
【0009】さらに、このように得られた各チャネルの
振幅情報列(各チャネルごとに第2周期で抽出された振
幅情報の列)に対してそれぞれ振幅情報を選択的に変更
するよう編集された複数の修正振幅情報列が生成され
る。この複数の修正振幅情報列は、それぞれ各周波数成
分に対応したチャネルごとに求められる。そして、各チ
ャネルに対応した修正振幅情報列間で、互いに対応して
いる同じタイミングで抽出された振幅情報からなる各情
報成分群と、これら各情報成分群ごとに用意される、第
1周期を基準にして音声再生時間の伸長あるいは短縮を
指示するための制御情報とからなるVデータが生成され
る。
【0010】続いて、上記第2周期のデータとして生成
されたVデータから、該Vデータにより与えられる振幅
(修正後の値)を有するとともに第1周期のデータ間隔
を有する、各チャネルに相当する正弦波データであっ
て、上記制御情報で指示された再生時間に相当する波数
の正弦波データがそれぞれ生成される。このように各チ
ャネルごとに生成された正弦波データは順次加算される
ことにより、第1周期のオーディオデータ(第2音声情
報列)が生成される。そして、この生成されたオーディ
オデータが所定の記録媒体に記録される。
【0011】なお、この発明に係る音声情報の記録方法
では、第2周期で抽出された各チャネルの振幅情報列に
おける各振幅情報に対し、任意の部分で選択的に強調さ
れるか減衰されるよう編集が行われる。すなわち、この
発明に係る音声情報の記録方法は、各チャネルの振幅情
報列について、各チャネル間で互いに対応している所定
部分の振幅情報から与えられる振幅値をそれぞれ選択的
に大きくあるいは小さく設定し直すことにより、修正振
幅情報列を生成している。また、この発明に係る音声情
報の記録方法では、再生音の不自然な振幅変化を避ける
ため、各チャネルについて、生成される正弦波データの
各振幅は、修正振幅情報列の互いに隣接した各振幅情報
間の直線補間により得られた値により決定されることを
特徴としている。
【0012】以上のようにこの発明に係る音声情報の記
録方法では、各チャネルごとに生成された振幅情報列に
対して、その任意の部分の振幅を変更するよう構成され
ており、また、再生時間の伸長・短縮を指示するための
制御情報が第2周期で抽出された各チャネルの振幅情報
をまとめた情報成分群ごとに用意されるため、周波数成
分を変更することなく、任意の部分において該再生音声
の選択的な強調・減衰を可能にするとともに、再生時間
の部分的な伸長・短縮も可能にする。
【0013】これは、主として日本人がナチュラル・ス
ピードの英語を単にゆっくり再生して聴けるようにした
場合であっても、各周波数成分について単純にかつ一様
に音声再生時間を伸ばしたり短縮したのでは不充分であ
り、発生音の種類によっては子音部のスペクトルの時間
変化が言語上の音として別の音を意味する場合があるか
らである。例えば、BA(バ)とPA(パ)の発音は、
前者のスペクトル変化が速く、後者は遅いだけでスペク
トルそのものはほとんど同じ形をしている。したがっ
て、BA(バ)という発音の子音部も含めて時間を伸長
するとPA(パ)と聴こえることになる。これを防ぐに
は子音部の伸長度をBA(バ)と聴こえる限界に留め、
母音部のみ望みの音声再生時間に伸長あるいは短縮する
ようにすれば、BA(バ)のままに聴こえることにな
る。一方、母音部はいくら伸長あるいは]短縮してもそ
の母音のままで聴こえるから望みの長さ(望みの再生時
間)に設定できる。一方、日本人には弱すぎて聴き取り
にくい小さな子音部の音のところだけを選択的に2倍と
か3倍に強調して聴かせることも必要である。母音部も
含めて強調したのでは全体が大きくなり過ぎて効果がな
い。どうしても選択的に強調しなければならない。以上
の理由から、この発明に係る音声情報の再生方法は、各
チャネルの振幅情報列も初級者にとって特に聞き取り難
い部分を選択的に強調された修正振幅情報列を編集し、
さらにこれら各チャネルごとの修正振幅情報列のうち同
じタイミングで生成された振幅情報から構成されるVデ
ータとともに再生時間の伸長を指示する制御情報を順次
記録するよう構成されている。逆に、上級者の場合には
上述の各発声音の特性を考慮して、所望の部分で再生音
声が減衰したり、再生時間が短縮されるよう選択的に音
声情報列を編集してもよい。
【0014】さらに、この発明に係る音声情報の記録方
法では、男性の音声が上述の記録方法で所定の記録媒体
に記録された場合、音声再生時間の伸長を行いながら再
生すると、出力される音声の周波数スペクトルは不変で
あっても感覚的により低い音にシフトしたような錯覚を
起す可能性がある。逆に音声再生時間の短縮を行いなが
ら再生すると、感覚的により低い音にシフトしたような
錯覚を起す可能性もある。そこで、上記制御情報には、
半音分あるいは1音分程度高音方向あるいは低音方向へ
周波数成分全体をシフトして再生可能にするための周波
数シフト指示情報を含むのが好ましい。
【0015】また、この発明に係る技術は、上述の日本
国特許第2581700号に開示された技術と組合わせ
ることにより、飛躍的な学習効果が期待できる。すなわ
ち、ネイティブスピーカーの発声音を発声の節目で分割
した可変長の区画に対応して、任意部分の音声が伸長及
び/又は強調された音声情報を別途用意することによ
り、聞き取れなかった音声を繰り返し再生して聞くこと
ができるとともに、係る音声の聞き取り難い部分が強調
・伸長された音声を聞くことで、元の音声に対するヒヤ
リング能力の向上が期待できる。また、上級者にとって
は、より積極的に学習効果を向上させるため、区画に区
分されたネーティブスピーカーの発声音とともに任意部
分の音声が短縮及び/又は減衰された音声情報を別途用
意することにより、敢えて再生時間を短縮して再生した
り、子音部を聞こえにくくする(振幅を小さくする)こ
とも可能であり、ネイティブスピーカーの発声音とを組
合わせた学習が可能となる。
【0016】具体的に上記第1音声情報列は、所定の音
声再生手段で再生出力されるべき単語列から構成された
1又は2以上の文に対応する音声情報列であって、発音
の節目でそれぞれ分割された情報ごとに可変長の区画に
区分された状態で記録媒体に記録される。これにより、
上記第2音声情報列は、第1音声情報列の区画に対応し
て分割された区画ごとに所定の記録媒体に記録され、さ
らに該記録媒体には、該第1音声情報列と該第2音声情
報列とを所定の音声再生手段で切替え再生すべく、切替
え可能な各区画を当該所定の記録媒体における該各区画
の記録位置で示す記録位置識別情報が記録される。この
ように、上記第1音声情報列の分割された各区画と第2
音声情報列の各区画間での対応関係を予め記録しておく
ことにより、所望の1又は2以上の区画を繰り返し再生
できるとともに、ナチュラルスピードの再生音と、各学
習者のレベルに応じて用意された同一発生音をリアルタ
イムで切替えながら再生することが可能になる。
【0017】したがって、この発明に係る記録方法によ
り所定の音声情報(波形データではなく、各周波数成分
の修正された振幅情報列)が記録された音声情報記録媒
体が得られる。
【0018】このような音声情報の記録媒体としては、
例えばCD−ROM、MD、MO等の円盤状記録媒体
や、DAT等のテープ状記録媒体が適用可能であり、必
然的に係る音声情報情報の記録媒体には、第1周期でサ
ンプリングされた第1音声情報列を複数の周波数成分に
分割し、これら各周波数成分について、第2周期で順次
抽出された振幅情報列に対して所定部分の振幅及び所定
部分に波形数が変更された正弦波データを生成し、これ
ら各周波数成分に相当する正弦波データを加算して合成
された第2音声情報列が少なくとも記録されている。す
なわち、当該音声記録媒体に記録される第2音声情報列
は、所定周期でサンプリングされた第1音声情報列を構
成する各周波数成分について、各周波数成分間で互いに
対応している部分に対し、少なくとも振幅が変更される
かあるいは波形数が変更されることにより、選択的に振
幅及び再生時間が編集された第2音声情報列である。
【0019】さらに、この発明に係る音声情報記録媒体
は、所定の音声再生手段で再生出力されるべき単語列か
ら構成された1又は2以上の文に対応する音声情報列で
ある上記第1情報列が、発音の節目でそれぞれ分割され
た情報ごとに可変長の区画に区分された状態で記録され
ることにより、上述の日本国特許第2581700号に
開示された技術と組合わせることが可能である。
【0020】以上のような構成の音声情報記録媒体に
は、上記第1音声情報列とともに、上記第2音声情報列
が、第1音声情報列の区画に対応して分割された区画ご
とに記録され、さらに該第1音声情報列と該第2音声情
報列とを所定の音声再生手段で切替え再生すべく、切替
え可能な各区画を当該所定の記録媒体における該各区画
の記録位置で示す記録位置識別情報が記録されているの
で、このような音声情報記録媒体を用意することによ
り、この発明に係る音声情報の再生方法及び再生装置
は、一方の音声情報列の再生中であっても他方の音声情
報列の対応する区画の音声情報列についてリアルタイム
の切替え再生が可能になる。
【0021】なお、上述されたこの発明の実施形態に
は、記録ソフト(上述の記録方法をパーソナルコンピュ
ータ等で実施可能なプログラム、あるいは該プログラム
が記録された記録媒体)、専用記録装置、使用マニュア
ル、あるいはこれらの組合わせによる販売、係る音声情
報記録媒体単体での販売の他、該音声情報記録媒体、音
声情報の再生ソフト(パーソナルコンピュータ等で実効
可能なプログラム、あるいは該プログラムを記録した記
録媒体を含む)、専用再生装置、使用マニュアル、ある
いはこれらの組合わせによる販売が考えられる。
【0022】
【発明の実施の形態】以下、この発明の一実施例を図1
〜図14を用いて説明する。なお、図中同一部分には同
一符号を付して重複する説明を省略する。
【0023】この発明は、例えば英語学習者のヒヤリン
グ練習に際し、予め聞き取り難い部分を選択的に強調あ
るいは減衰させたり、再生時間を伸長あるいは短縮させ
た音声情報の提供を可能にする技術である。したがっ
て、このように予め編集された音声情報を聞いた学習者
にとっては、元の音声に対するヒヤリング能力の向上が
期待できる。
【0024】図1は、この発明に係る音声情報の記録動
作を概略的に説明するため概念図である。まず、マイク
11等により、例えば音楽CDの音響クロック44.1
KHz(第1周期)でサンプリングされたネイティブス
ピーカーのナチュラルスピードの音声(第1音声情報)
がPC1本体に取り込まれ、一旦ハードディスク等に記
録される。そして、取り込まれた音声情報を図2の表に
示されたように区分された各チャネル(周波数成分)に
分割するためフィルタリングされる。なお、取り込まれ
る音声情報の周波数範囲は75Hz〜10,000H
z、また、サンプリング周波数は音楽CDの音響クロッ
クに合わせて44.1kHz(22.68μs)とす
る。分割するチャネル数は85(7オクターブ+1音)
とし、各チャネル#1〜#85の中心周波数(中心f)
は平均律(1オクターブ当り12平均律とする)の半音
列になるように設定する(77.78Hz(D#)〜
9,960Hz(D#))。
【0025】以上のように各チャネル#1〜#85にそ
れぞれ分割されたデータは、その振幅情報が2.268
msごと(44.1kHzサンプリングの100データ
に相当、ただし100データで1波形が形成できない場
合にはデータ数を増やす)に抽出される。したがって、
この実施形態では、各チャネル#1〜#85における振
幅情報のサンプリングレート(第2周期)は441サン
プル/s(2.268ms)である。なお、このサンプ
リングレートは、規則性のある周期であればよく、例え
ば100データ分取り込んだ次に、120データ分取り
込んで処理するなど、これら異なるレートで交互に処理
を繰り返すような実施形態であってもよい。
【0026】さらに、PC1の制御系10は、2.26
8msごとにサンプリングされた各チャネル#1〜#8
5の振幅情報に対し、種々の編集(ディスプレイ12、
及びキーボード、マウス等の入力装置13を介して行う
ことも可能)を行い、2.268msごとの修正振幅情
報群を生成する。そして、各チャネル#1〜#85の修
正振幅情報(修正振幅情報群を構成している要素)をそ
れぞれ1バイト(8ビット)で表現し、さらに2バイト
の制御情報を付加して87バイト(85チャネル×1バ
イト+2バイト)のVデータ19を生成する。
【0027】なお、修正振幅情報は、各チャネル#1〜
#85の振幅情報列(2.268msでサンプリングさ
れた振幅情報)における各振幅情報を、任意の部分で選
択的に強調あるいは減衰させるよう編集して得られた情
報である。すなわち、各チャネル#1〜#85の振幅情
報列について、各チャネル間で互いに対応している所定
部分の振幅情報から与えられる振幅値をそれぞれ選択的
に大きくあるいは小さく設定し直すことにより、修正振
幅情報列は生成される。また、上記制御情報は、上述の
編集動作により指示された、各チャネル#1〜#85の
周波数成分の再生すべき時間の伸長あるいは短縮を指示
する伸長指示情報(1バイト)と各チャネル#1〜#8
5に相当している周波数成分を低音方向あるいは高音方
向に半音又は1音だけ全体的にシフトさせて再生させる
か否かを指示する周波数シフト指示情報(1バイト)で
構成されている。
【0028】上記伸長指示情報は、1データを何msで
再生するかの再生クロック数で表現されている。例え
ば、この伸長指示情報を再生するクロック数の2分の1
で表現すると、50で元の再生時間と同じになり、この
情報を100に設定すると44.1kHzのクロックと
して200クロックで再生することになり、再生時間を
2倍に延ばすことが可能となる(この情報は1バイトで
表現されるため、最大で256÷50=5.12倍まで
再生時間の伸長が可能)。逆にこの情報を25に設定す
ると44.1kHzのクロックとして50クロックで再
生することになり、再生時間を1/2に短縮することが
可能となる。また、上記周波数シフト指示情報は、全周
波数成分を低音方向あるいは高音方向にシフトさせる場
合にON”1”、シフトさせる必要がない場合にはOF
F”0”がセットされる。
【0029】以上のように2.268msでサンプリン
グされた各チャネル#1〜#85の振幅情報を制御系1
0が所望の編集を施すことにより生成されたVデータ1
9に基づいて、新たな音声情報列が生成される。
【0030】なお、上記生成されたVデータ19から新
たな音声情報列を生成するためには、各チャネル#1〜
#85に相当する波長の正弦波を生成する正弦波生成回
路16−1〜16−85を有する外部装置16が必要に
なる。各生成回路16−1〜16−85には、各チャネ
ル#1〜#85に対応した周波数の正弦波の基本データ
が記録されたROMと、生成した正弦波データを一旦記
録しておくRAM#1〜#85をそれぞれ備えており、
これら各回路では、制御系10から送られてきたVデー
タ19の修正振幅情報に基づいて成形され、かつ制御情
報の伸長指示情報で指示された波形数の正弦波データを
それぞれのRAM#1〜#85に書込む。なお、この正
弦波データを構成するデータ間隔は、サンプリング周波
数44.1kHzのデータ間隔22.68μsである。
【0031】そして、これら各生成回路16−1〜16
−85におけるRAM#1〜#85に書込まれている正
弦波データが44.1kHzのタイミングで順次読み出
され、それぞれ加算されることによりオーディオデータ
(音声情報列)が生成される。このオーディオデータは
制御系10に送られ、I/Oを介してCD−ROM書込
装置等の入出力装置14に制御系10から出力される。
この入出力装置14は、制御系10から送られてきた4
4.1kHzのオーディオデータを例えばCD−ROM
等の所定の音声情報記録媒体15に記録する。
【0032】上記各生成回路16−1〜16−85で行
われる正弦波データの生成では、再生音の不自然な振幅
変化を避けるため、各チャネル#1〜#85について、
正弦波データの各振幅が、修正振幅情報列の互いに隣接
した各振幅情報間の直線補間により得られた値により決
定される。また、外部装置16で生成されたオーディオ
データはそのままDAC17及びAMPを介してスピー
カー18から音声として出力してもよい。さらに、この
ような音声情報記録媒体15としては、例えばCD−R
OM、MD、MO等の円盤状記録媒体や、DAT等のテ
ープ状記録媒体が適用可能である。
【0033】一方、この発明は主として日本人がナチュ
ラル・スピードの英語を単にゆっくり再生して聴けるよ
うする技術に関するものであるが、各周波数成分につい
て単純にかつ一様に音声再生時間を伸ばしたり短縮した
のでは不充分である。すなわち、図3は音声スペクトル
の基本的な形状を示す図であるが、発生音の種類によっ
ては子音部のスペクトルの時間変化が言語上の音として
別の音を意味する場合があるからである。例えば、BA
(バ)とPA(パ)の発音は、前者のスペクトル変化が
速く、後者は遅いだけでスペクトルそのものはほとんど
同じ形をしている。したがって、BA(バ)という発音
の子音部も含めて時間を伸長するとPA(パ)と聴こえ
ることになる。これを防ぐには子音部の伸長度をBA
(バ)と聴こえる限界に留め、母音部のみ望みの音声再
生時間に伸長あるいは短縮するようにすれば、BA
(バ)のままに聴こえることになる。一方、母音部はい
くら伸長あるいは短縮してもその母音のままで聴こえる
から望みの長さ(望みの再生時間)に設定できる。一
方、日本人には弱すぎて聴き取りにくい小さな子音部の
音のところだけを選択的に2倍とか3倍に強調(振幅を
大きくして)して聴かせることも必要である。母音部も
含めて強調したのでは全体が大きくなり過ぎて効果がな
い。どうしても選択的に強調しなければならない。以上
の理由から、この発明に係る音声情報の再生方法は、各
チャネルの振幅情報列も初級者にとって特に聞き取り難
い部分を選択的に強調された修正振幅情報列を編集し、
さらにこれら各チャネルごとの修正振幅情報列のうち同
じタイミングで生成された振幅情報から構成されるVデ
ータとともに再生時間の伸長を指示する制御情報を順次
記録するよう構成されている。逆に、上級者の場合には
上述の各発声音の特性を考慮して、所望の部分で再生音
声が減衰させたり、再生時間が短縮されるよう選択的に
音声情報列を編集してもよい。
【0034】さらに、この発明では、男性の音声が上述
の記録方法で所定の記録媒体に記録された場合、音声再
生時間の伸長及び/又は所望部分の音声強調を行いなが
ら再生すると、出力される音声の周波数スペクトルは不
変であっても感覚的により低い音にシフトしたような錯
覚を起す可能性がある。逆に音声再生時間の短縮及び/
又は所望部分の音声減衰を行いながら再生すると、感覚
的により低い音にシフトしたような錯覚を起す可能性も
ある。そこで、上記制御情報には、半音分あるいは1音
分程度低音方向あるいあ高音方向へ周波数成分全体をシ
フトして再生可能にするための周波数シフト指示情報が
含まれている。
【0035】次に、この発明は、上述の日本国特許第2
581700号に開示されているように、ネイティブス
ピーカーの音声が記録された記録媒体を再生等する技術
に好適である。以下、係る技術にこの発明を適用する構
成について説明する。
【0036】この発明は、上述の日本国特許第2581
700号に開示された技術と組合わせることにより、飛
躍的な学習効果が期待できる。すなわち、ネイティブス
ピーカーの発声音を発声の節目で分割した可変長の区画
に対応して、任意部分が選択的に伸長あるいは縮小され
たり、強調あるいは減衰された音声情報を別途用意する
ことにより、学習者は聞き取れなかった音声を繰り返し
再生して聞くことができるとともに、聞き取り能力を向
上させるべく、再生される音声の聞き取り難い部分が伸
長あるいは短縮、強調あるいは減衰された音声としても
聞くことが可能になる。
【0037】図4は、この発明に係る音声記録媒体に記
録されるべき音声情報列を含む各種情報を概念的に説明
するための図である。
【0038】まず、音声情報記録媒体15に記録される
第1音声情報列(44.1kHzでサンプリングされた
音声情報列)は、映画における出演者の会話、日常の生
活環境における会話等のように、長さの異なる複数のセ
ンテンス(文)から構成され、また、各センテンス(各
会話者の音声情報)の間に、音声が再生されていない状
況、雑音のみが再生されている状況、音楽(BGM)の
みが再生されている状況等のランダムに発生する無音声
期間が存在し得る一連の音声情報列である。したがっ
て、第1音声情報列は、所定の音声再生手段で再生出力
されるべき複数の単語列から構成された1又は2以上の
文に対応する音声情報列であって、当該音声情報記録媒
体15の第1領域に、図4に示されたように、発音の節
目でそれぞれ分割された音声情報ごとに可変長の区画
(以下、セグメントという)に区分された状態で記録さ
れる。
【0039】一般にネイティブスピーカーの英会話で
は、1センテンスは概ね3秒程度で発声されるため、記
録されるべき音声情報列を構成するセグメントを決定す
る発音の節目を各センテンスの間に設定することで、図
1(a)、(b)あるいは(d)に示されたように、音
声情報列を構成する可変長セグメント621、622、
799をそれぞれ構成するのが妥当である。なお、会話
中のセンテンスの中には図1(c)に示されたように、
極端に短いセンテンスも含まれるが、このセンテンス7
01も1つのセグメントを構成する。一方、図1(e)
に示されたように、極端に長いセンテンスの場合には、
接続詞や関係詞等の前が発音の節目となるため、図1
(e)に示されたようなセンテンスでは、連続する2つ
のセグメント801、802で構成するのが妥当であ
る。したがって、記録されるべき音声情報列のセグメン
トとは、発声上の区切り(息継ぎ位置)又は言語上(文
法上)のなんらかの区切りにもとづいて分割された音声
情報の記録単位であることを意味する。
【0040】この発明に係る音声情報の記録方法では、
まず上述のように第1情報列を分割して得られた各セグ
メントそれぞれに対し、任意の部分が選択的に編集(各
周波数成分の振幅の変更、再生時間の変更)された第2
音声情報列を生成する。この第2音声情報列は、具体的
には図5に示されたように、各周波数成分について編集
するPC1本体と、編集されたオーディオデータ(第2
音声情報列)を生成する外部装置16で構成された装置
により、所定の音声情報記録媒体15に記録される。
【0041】特に、外部装置16は、図5に示されたよ
うに、オーディオデータを生成するマスターボード16
5と、各チャネルに対応して設けられた正弦波生成回路
16−1〜16−85を備えたスレーブボード166で
構成されている。マスターボード165は、PC1から
のVデータをコントロール信号に従って各生成回路16
−1〜16−85に供給すべく、タイミングコントロー
ラ171と、FIFO172を備えるとともに、各生成
回路16−1〜16−85から送られてきた正弦波デー
タ(16ビット)を順次加算し、オーディオデータ(1
6ビット)を生成する加算器173と、PC1へ送信さ
れる該生成されたオーディオデータを一旦格納するバッ
ファとしてのRAM174を備える。なお、図5に示さ
れたマスターボード165は、PC1からの指示で第1
音声情報列と新たに編集された第2音声情報列とを音に
して何度でもスピー力に出し、耳で聴いて比較できるよ
う、生成されたオーディオデータを直接スピーカー17
7で再生出力すべく、DAC175及びAMP176が
設けられている(音声再生のための構造は図1に示され
たようにPC1側に設けられてもよい)。一方、スレー
ブボード166は、各チャネルに対応して所定の周波数
の正弦波をそれぞれ生成する正弦波生成回路16−1〜
16−85を備えており、これら生成回路16−1〜1
6−85は、正弦波を生成するためのデータが記録され
たROMと、一旦生成された正弦波データを格納するバ
ッファとしてのRAM#1〜#85をそれぞれ有する。
【0042】なお、マスターボード165とスレーブボ
ード166は、30本の信号バスとGND、Vccの合
計32本のバスで接続されており、図中、167で示さ
れたバス群は各生成回路16−1〜16−85へVデー
タを供給するためのVデータ関連バス群であり、168
で示されたバス群は各生成回路からマスターボード16
5へオーディオデータ生成用の正弦波データを送るため
のオーディオデータ関連バス群である。
【0043】次に、この発明に係る音声情報の記録方法
の、日本国特許第2581700号に開示された技術に
適用された実施形態を、図5を参照しながら、図6及び
図7のフローチャートを用いて説明する。
【0044】まず、Vデータの生成はPC1側で行われ
る。すなわち、PC1では、一連の音声情報列(第1音
声情報列)が44.1kHz(16bit/データ)を
サンプリングし、この第1音声情報列に相当するサンプ
リングデータを一旦ハードディスクに格納し(ステップ
ST1)、図4に示されたように複数のセグメントに分
解する(ステップST2)。
【0045】続いて、分割されたセグメントのうち1セ
グメントについて、デジタル・バンド・バス・フィルタ
ー・プログラムにより、まず第1チャンネル#1のバン
ド幅(75.57kHz〜80.06kHz)の波形情
報をメモリーに展開する。この時も44.1kHzのレ
ートに相当するデータ間隔のまま展開する。そして、1
00データごとに平均振幅情報(8ビット)を抽出する
(ステップST3)。なお、上述のように第1チャネル
#1の周波数成分について100データで1波形できな
い場合には1波形できるデータ数に増やして振隔情報を
求める。対象セグメントのサンプリングデータが終了す
るまで、100データ分づつずらして同じ動作を繰り返
す。この動作により、対象チャネルである第1チャネル
#1についてデータ間隔2.268msの振幅情報列
(1秒当り441個の振幅情報)である。対象チャネル
である第1チャンネル#1の振幅情報抽出動作が終了す
ると(ステップST5)、続いてデジタル・バンド・バ
ス・フィルターにより第2チャンネル#2の周波数を分
割して上記ステップST3〜ST5の動作を繰り返し、
対象チャネルを変更しながら(ステップST7)、第1
チャネル#1〜第85チャネル#85について対象セグ
メントの振幅情報列が生成される。
【0046】以上の動作は、対象セグメントを変更しな
がら(ステップST10)、ステップST1でサンプリ
ングされた第1音声情報列を構成するすべてのセグメン
トが終了するまで行われる(ステップST9)。
【0047】次に、以上のステップST1〜ST9が実
行されることにより得られた、各セグメントいついて8
5チャネル分の振幅情報列に対し、PC1側では以下の
ような編集が行われ、Vデータが生成される(ステップ
ST11)。
【0048】まず、分割されたセグメントごとにに生成
された85チャネル分の振幅情報列群を格納先であるハ
ードディスクから呼び出し、モニタ12上に順次その振
幅波形を表示する。
【0049】実際の編集作業は、表示された振幅波形の
所望の部分を指定して再生時間を指定する(クロック5
0が基準)。また、必要であれば変更する部分を指定し
て振幅の変更(表示された震央くを基準にして倍率で設
定)を行ったり、低音方向あるいは高音方向への周波数
シフト指示を指定する。例えば、セグメントの中の子音
部は振幅を2倍、再生時間を1.5倍にする一方、母音
部は振幅をそのままにして、再生時間のみ2.5倍にす
る等、選択的に任意の部分に対して得られた振幅情報列
を編集し、新たに各振幅情報が修正された修正振幅情報
列を生成する。
【0050】そして、得られた85チャネル分の修正振
幅情報列のうち、各修正振幅情報列間で互いに対応して
いる同じタイミングの情報成分をまとめた情報成分群ご
とに、上述の再生時間の変更を指示する情報と周波数シ
フトを指示する情報とからなる制御情報を付加すること
により、データ間隔2.268msのVデータが得られ
る。
【0051】次に、以上のようにPC1側で用意された
Vデータ(87バイト/データ)は外部装置16のマス
ターボード165へ送られ、さらに該マスターボード1
65からデータバスを介してスレーブボード166上の
各正弦波生成回路16−1〜16−85へ送られる。な
お、スレーブボード166は、実際には8回路が搭載さ
れた11枚のボード(11枚目のボードには8回路中5
回路だけ使用する)で構成されるものとし、それぞれの
回路が対応するチャネルの正弦波データを生成する(ス
テップST12)。なお、各回路は、正弦波の波形デー
タを収納しているROMが異なることと、対応するチャ
ンネルを指定する7ビットのDIP・SWの設定が異な
ること以外は全て同じで構成である。
【0052】各チャネルを受け持つ各回路では、まず、
マスターボード165から送られてきた87バイトのV
データのうちへッダー(2バイト)を共通に受け取る一
方、該Vデータのうちの修正振幅情報については対応す
るチャネル用の修正振幅情報(1バイト)だけを受け取
る。各回路では、44.1kHzの何クロック分で波形
を成形し出力するのかを判断するため、受け取ったヘッ
ダー情報の再生時間を調べられる。例えば指示された再
生時間が50で与えられた場合には100クロック再生
(再生時間は変らない)、110の時は220クロック
再生(再生時間は2倍)となる。各回路には受け持つ周
波数の正弦波データが44.1kHzで出力された時の
データ間隔でROMに収納されている(ROMのアドレ
スのゼロ番地からN番地までにその周波数の正弦波波が
正確にM波収納されている(M、Nは自然数)。各回路
中のプロセサ一は、1つの正弦波データを作るごと(2
2.68μsごと)にROMのアドレスを十1してい
く。そして、N番地の次にはゼロへ戻る。こうすること
で、正確な正弦波を不連続点なしに作れる。ただし、上
記正弦波データは、受け取った修正振幅情報をそのRO
Mに格納されていた基本データに掛けて1つの正弦波デ
ータを生成する。また、各振幅情報は、今回の振幅情報
と前回の振幅情報との間を直線補間することにより得ら
れた値とする。
【0053】以上のように、各回路で生成された正弦波
データは、周期44.1kHz(22.68μs)でR
OMを参照し、上記補間で求められた係数を参照された
データに掛けて出力バッファである各RAM#1〜#8
5へ収納する。
【0054】そして、マスターボード165からのコン
トロール信号により、各RAM#1〜#85に格納され
た正弦波データが出力バス(16ビット)へ送出するタ
イミング(22.68μs周期)をもらい、その時だけ
バスへ送出する。1回路に与えられた時間幅は226n
s(22.68μs÷85)となる。一方、マスターボ
ード165側の取込タイミングはクロックと同期信号で
与えられる。同期信号から何クロック目かの数は上記D
IPスイッチで指定されたチャンネル番号と同じとな
る。また、上記Vデータのヘッダー情報に含まれる周波
数シフト指示情報がONの時、半音(又は全音)シフト
した周波数の正弦波データが各回路から出力できるよ
う、各回路に設けられているROMに2種類の波形デー
タを格納しておき、いずれかを選択できるようにする。
【0055】一方、マスターボード165は各回路16
−1〜16−85で生成された正弦波データを、22.
68μs中85データの割合(データ間隔は22.68
μs÷85=266ns)で受け取る。実際には、各回
路からの正弦波データを受け取りながら加算器173で
加算していき、44.1kHzのオーディオデータ(第
2音声情報列)を生成する(ステップST13)。生成
されたオーディオデータは順次バッファであるRAM1
74に格納され、PC1へ送られる。
【0056】PC1では、送られてきたオーディオデー
タを入出力装置14を制御しながら所定の記録媒体15
に該オーディオデータを記録していくことにより(ステ
ップST14)、この発明に係る音声情報記録媒体が得
られる。
【0057】次に、この発明に係る音声情報記録媒体
の、上述の日本国特許第2581700号に開示されて
た技術が適用された各実施形態について説明する。
【0058】音声情報記録媒体に係る第1実施形態 まず、第1実施形態では、少なくとも2種類の音声情報
列と記録位置識別情報が記録されている。すなわち、第
1音声情報列は例えばネイティブスピーカが自然な速さ
で話す英語の音声情報からなり、この音声情報列は上述
されたように発音の節目(センテンスの終りやセンテン
ス中の一息つける、発生上あるいは文法上の区切り)で
複数の可変長セグメントに分割されている。第2音声情
報列は、第1情報列を、上述のように任意の部分が選択
的に編集することにより得られた音声情報列であって、
第1音声情報列の各セグメントに対応して複数の可変長
セグメントに分割されている。また、記録位置識別情報
は、少なくとも、第1及び第2音声情報列における各セ
グメントが、当該音声記録媒体のどの位置に記録されて
いるかを示す情報である。したがって、例えば第1音声
情報列のt番目のセグメント”It's not much of a pro
blem.”に対応する第2音声情報列のセグメント”It's
・・not ・・・much・・of・・a ・・・problem.”が、媒体のどの位置
に記録されているかということは、この記録位置識別情
報により認識することができる。
【0059】その結果、第1及び第2音声情報列と記録
位置識別情報は互いに無関係に記録されるのではなく、
一定の関係をもって記録され、各音声情報列はセグメン
トを単位として有機的に組み合わされている。すなわ
ち、第1及び第2音声情報列は互いに対をなしており、
これらをセグメントごとに関連させているのが記録位置
識別情報である。なお、この実施形態では、記録記録位
置識別情報は当該音声情報記録媒体のディレクトリ領域
に記録されており、少なくとも各セグメントの先頭位置
に関する情報を含んでいる。
【0060】以上のような構造を備えた音声情報記録媒
体(第1実施形態)の再生方法では、記録されたセグメ
ントごとに順番に音声再生が行われるが、特に、この再
生方法では、当該音声情報記録媒体に記録された第1音
声情報列から第2音声情報列への再生切換え(あるいは
第2音声情報列から第1音声情報列への再生切換え)が
可能であることを特徴としている。なお、この再生切換
え動作は、セグメントを単位として行われる。例えば、
第1音声情報列のt番目のセグメントが再生されている
ときに第2音声情報列の再生指示が入力されると(割込
み要求の発生)、記録位置識別情報に基づいて第2音声
情報列の対応するt番目のセグメントを読み出し、その
対応するセグメントの音声再生が実行される。また逆
に、第2音声情報列から第1音声情報列への再生切換え
も、上述した再生切換え動作と同様に各セグメント単位
で行われる。
【0061】なお、この再生方法では、上述の再生切換
え動作の他、リピート再生等の種々の変形が可能であ
る。その代表的なものとして、いわゆる戻し指令があ
る。すなわち、再生中の停止命令により一時再生を中断
した後に戻し指令が入力されたときは、指令された量だ
け音声情報の読み出し位置を戻すことによりより操作者
の希望に合った音声情報の再生が行われる。
【0062】音声記録記録媒体に係る第2実施形態 この第2実施形態は、上述された第1実施形態と基本的
には同じ構造であるが、上記第1音声情報列及び第2音
声情報列の他、第1音声情報列の内容と等価な意味内容
であるが別の音声情報であり、例えば単語を区切って話
すゆっくりとした速さの英語の音声情報である第3音声
情報列を備えていることを特徴としている。また、この
第3音声情報列も、複数の可変長セグメントから構成さ
れており、上記記録位置識別情報は、これら第1〜第3
音声情報列における各セグメント間での記録位置を管理
している。したがって、この第2実施形態における音声
情報の再生方法は第1実施形態と同様である。
【0063】なお、この実施形態において、重要なこと
は、上記第1音声情報列と、第3音声情報列はそれぞれ
複数の可変長セグメントに区分されているが、互いにセ
グメントごとにその意味内容が対応していることであ
る。例えば、第1音声情報列のt番目(図4(a)では
621番目)のセグメントがネイティブスピーカの話
す”It's not much of a problem.”であるときは、第
3音声情報列のt番目のセグメントは各単語を区切って
話す”It is not much of a problem.”となる。ただ
し、第2音声情報列と対応した内容でかつ別の音声情報
からなるということは、言語上は同一の意味で発声の異
なるものであることを示している。
【0064】音声情報記録媒体に係る第3実施形態 さらに、この発明に係る音声情報記録媒体の第3実施形
態について説明する。この第3実施形態に係る音声情報
記録媒体は、第1及び第2音声情報列の他、さらに文法
解説等の音声情報列である第4音声情報列が当該音声情
報記録媒体に記録されている点が、上述の第1実施形態
に係る音声情報記録媒体と異なる。
【0065】ここで重要なことは、上記第3音声情報列
は第1及び第2音声情報列の1又は2以上の可変長セグ
メントをひとまとまりとしたセグメント群に区分されて
いることである。換言すれば、この第4音声情報列の1
つのセグメント群は第1及び第2音声情報列の1又は2
以上のセグメントを包含しており、したがって、第4音
声情報列の1つのセグメント群は第1及び第2音声情報
列の1又は2以上のセグメントと対になっている。特
に、この構成は図4(e)に示されたように、1つのセ
ンテンスが複数のセグメントに区分された場合を想定し
ている。
【0066】また、この第3実施形態の音声情報記録媒
体において、所定の領域に記録された記録位置識別情報
には、上記第4音声情報列の内容の記録位置をもセグメ
ント群ごとに示す情報も含まれている。したがって、第
1、第2及び第4音声情報列と記録位置識別情報は互い
に一定の関係をもって媒体に記録され、各音声情報列は
セグメントあるいはセグメント群を単位として有機的に
組み合わされている。なお、この第3実施形態において
も、記録位置識別情報は当該音声情報記録媒体のディレ
クトリ領域に記録され、各音声情報列におけるセグメン
トの先頭位置に関する情報を含んでいる。また、この実
施形態においても、第1音声情報列の音声情報と等価で
あって、単語を区切って話すゆっくりとした速さの第3
音声情報列をさらに記録してもよい。
【0067】以上のような構造を備えた音声情報記録媒
体(第3実施形態)の再生方法は、基本的に上述された
第1実施形態の場合と同じであるが、第1及び第2音声
情報列間での再生切換えの他、該第1及び第2音声情報
列と第4音声情報列との間においても再生切換え動作を
行う点が異なる。
【0068】例えば、第1音声情報列の再生中にネイテ
ィブスピーカの”It's not much of a problem.”が聴き
取れなかったときは、再生中の第1音声情報列から第2
音声情報列に再生を切換えることにより、選択的に伸長
等の編集が施された音声”It's ・・・not・・・ much・・of・・a
・・problem.”を聴くことができる。そして、この日本語
の意味や文法を知りたいときは、さらに、再生中の音声
情報列から第4音声情報列へ再生を切換えればよい。も
ちろん、この再生方法においても、上述の第1実施形態
に係る音声情報記録媒体の再生方法で説明された戻し指
令や停止命令を組み合せて使えるよう応用できることは
言うまでもない。また、この再生方法においても、切換
え再生及びリピート再生が可能である。
【0069】音声情報記録媒体に係る第4実施形態 この発明に係る音声情報記録媒体の第4実施形態は、基
本的に上述の第1実施形態の場合と同様であるが、第1
及び第2音声情報列の他、文字情報列が記録されている
点が主に異なる。この文字情報列は、第1又は第2音声
情報列に対応する内容の文字情報に相当しており、例え
ばネイティブスピーカが話す英語(音声)に対応する文
字情報に相当している。
【0070】この文字情報列も、第1及び第2音声情報
列の各セグメントと対応するセグメントに区分されてい
る。また、この第4実施形態に係る音声情報記録媒体に
おいても、記録位置識別情報には、この文字情報列の記
録位置を各音声情報列のそれぞれのセグメントごとにそ
れらの先頭位置に関する情報が含まれ、当該音声情報記
録媒体のディレクトリ領域に記録される。したがって、
第1及び第2音声情報列と文字情報列はそれぞれセグメ
ント単位で対応することになる。
【0071】なお、この第4実施形態に係る音声情報記
録媒体において、上述の第3実施形態における第4音声
情報列を記録情報として加えるときは、第1及び第2音
声情報列と文字情報列の1又は2以上のセグメントは第
3音声情報列の1つのセグメント群にも対応することに
なる。この構成においても、上記記録位置識別情報に
は、各セグメントの先頭位置が含まれ、かつ当該音声記
録媒体のディレクトリ領域に記録される。そして、上述
の第3実施形態と同様に、この第4実施形態でも、第1
音声情報列の音声情報と等価であって、単語を区切って
話すゆっくりとした速さの第3音声情報列をさらに記録
してもよい。
【0072】以上のような構造を備えた音声情報記録媒
体(第4実施形態)の再生方法も、基本的に上述の第2
実施形態の場合と同様であるが、第1又は第2音声情報
列の再生中に文字情報列がディスプレイ表示される点が
異なる。
【0073】例えば、第1音声情報列のセグメント”I
t's not much of a problem.”が再生されているとき
は、所定の表示部に”It's not much of a problem.”
もしくは”It is not much of a problem.”がディスプ
レイ表示される。なお、この表示については再生中の音
声情報列と時間的に完全に同期している必要はなく、文
字が少しずつ遅れて表示されたり、あるいは少しずつ先
に表示されたりしてもよい。また、この再生方法でも、
切換え再生及びリピート再生が可能である。
【0074】次に、この発明に係る音声記録媒体の具体
的な構造を、図8〜図11を用いて、以下詳細に説明す
る。
【0075】図8は、この発明に係る音声情報記録媒体
の例として、上述の第3実施形態を英会話独習用に適用
したときの各音声情報列A、B、Cと、その記録内容を
説明するための図である。この図において、音声情報列
Aはネイティブスピーカの話す英語の情報列(第1音声
情報列)であり、複数のセグメント621、622から
構成されている。音声情報列Bは図6及び図7に示され
たフローチャートを用いて説明されたように選択的に該
第1情報列の所定部分が伸長等するよう編集された情報
列(第2音声情報列)である。また、音声情報列Cは日
本語の解説をする情報列(第3音声情報列)であり、こ
の音声情報列Cに含まれるセグメント群は、各音声情報
列A、Bの各セグメント621、622にそれぞれ対応
している。
【0076】また、図9は、図8に示された態様におけ
る1セグメント当りの時間と容量の関係を説明するため
の表である。この表において、1秒間は6キロバイトの
容量に対応している。例えば音声情報列Aのセグメント
621では、”It's”の発声時間が0.2秒、その容量
が1.2KB(キロバイト)、”not”の発声時間が
0.1秒、その容量が0.6KB(キロバイト)、”mu
ch of a”の発声時間が0.4秒、その容量が2.4K
B(キロバイト)、そして”problem”の発声時間が
0.3秒、その容量が1.8KB(キロバイト)であ
り、セグメント621全体の発声時間は2.0秒、その
容量は12KB(キロバイト)となる。
【0077】さらに、図10は、図8及び図9に示され
た形態におけるディレクトリ領域の記録内容を説明する
ための表である。この表において、ディレクトリ領域
は、1セグメント当り9×3=27バイト(B)で構成
される。音声情報列A、B、Cはそれぞれ図8の音声情
報列A、B、Cに対応している。また、1バイトのCは
属性を示し、C=0は音声情報列A、C=64は音声情
報列Bであることを意味する。また、C=128、12
9は音声情報列Cであることを意味し、特にC=129
のとき、すなわちビット表現(8ビット(bit))
で”10000001”のときは前のセグメントと同じ
解説対象であることを示す(音声情報列Cの解説対象と
なる同じセグメント群に属していることを示し、例えば
図4(e)のセグメント801、802の場合が相当す
る)。
【0078】位置情報のM、S、B(各1バイト)は産
業界で標準になっているCD−ROM上の位置を表わす
パラメータである。すなわちMは分、Sは秒、Bはブロ
ックをそれぞれ示す。また、1ブロックは2,048バ
イトであり、75ブロックで1秒分を構成している。し
たがって、最大の数はM=59、S=59、B=74と
なる。次の2バイトのSBはスタートバイトを示し、そ
の次の3バイトのLLLは各セグメント全体の長さを示
している。なお、位置を示すパラメータに分、秒を使う
理由はCD−ROMはもともと音楽用として開発された
ためであり、始めからの時間として記録位置を表現する
ようになっている。そのためCD−ROMを当該音声情
報記録媒体として採用した場合には、この分と秒は再生
時の時間とは全く無関係であり、単に記録媒体上の記録
位置を表わしている情報にすぎないことになる。
【0079】その結果、例えば音声情報列Aにおけるセ
グメント621の”It's not much of a problem.”は、
O分11秒3ブロックの826バイト目から6,000
バイトの長さでネイティプスビーカの話す英語の音声情
報が記録され、音声情報列Bにおける対応するセグメン
トは0分11秒3ブロックの2,026バイト目から1
7,400バイトの長さで選択的に伸長された上記ネイ
ティブスピーカーの英語が記録され、音声情報列Cのセ
グメント群は0分11秒6ブロックの1,282バイト
目から72,000バイトの長さで日本語解説が記録さ
れる。なお、621、622等のセグメントナンバーは
メモリ上にはなく、そのアドレスに対応している。ま
た、各セグメントの関係を示す記録位置識別情報は、こ
のディレクトリ領域に含まれる。
【0080】さらに具体的には、第10図に示されたデ
ィレクトリ領域の記録内容から、当該音声情報記録媒体
の0分11秒3ブロックにおける826バイト目から8
26+6,000−1=6,825バイト目までの領域
には、セグメントが621で属性Cが0の音声情報列す
なわちネイティブスピーカが話す”It's not much of a
problem.”に相当する情報が記録される。また、当該音
声情報記録媒体の0分11秒3ブロックにおける2,0
26バイト目から2,026+17,400−1=1
9,425バイト目までの領域には、セグメントが62
1で属性Cが64の音声情報列すなわち選択的に伸長さ
れた音声情報が記録される。さらに、当該音声情報記録
媒体の0分11秒6ブロックにおける1,282バイト
目から1,282+72,000−1=73,281バ
イト目までの領域には、セグメントが621で属性Cが
128の音声情報列すなわち日本語の解説に相当する情
報が記録される。
【0081】このように、図10に示されたディレクト
リ領域を設ければ、図9に示されたような再生時間及び
容量で図8に示された各音声情報列が記録可能である。
【0082】次に、各セグメント621、622に関す
る情報は、例えば図11(a)に示された可変長セグメ
ントのヘッダー部に記録される。このヘッダー部は、図
11(b)に示されたように、先頭から文字情報や画像
情報の有無等を示すための1バイト領域(1B)、音声
情報列A用に用意された領域であって情報列タイプ(音
声情報列A、B等を区別するための情報)を示す1バイ
トデータ、そのデータ長を示す3バイトデータ、及び予
備の1バイトデータから構成された5バイト領域(5
B)、音声情報列B用に用意された領域であって情報列
タイプを示す1バイトデータ、そのデータ長を示す3バ
イトデータ、及び予備の1バイトデータから構成された
5バイト領域(5B)、音声情報列C用に用意された領
域であって情報列タイプを示す1バイトデータ及びその
データ長を示す3バイトデータから構成された4バイト
領域(4B)、文字情報列D用に用意された領域であっ
て情報列タイプを示す1バイトデータ及びそのデータ長
を示す3バイトデータから構成された4バイト領域(4
B)、同様に文字情報列D用に用意された領域であって
アドレスを示す3バイトデータ及びそのデータ長を示す
3バイトデータから構成された6バイト領域(6B)、
上記第3音声情報列のような他の情報列(タイプE)用
に用意された4バイト領域(4B)、及び予備の3バイ
ト領域(3B)からなる、32バイトの領域である。
【0083】次に、図12〜図14を用いて、この発明
に係る音声情報の再生方法及び装置構成を説明する。
【0084】まず、図12は、この発明に係る音声情報
の再生方法実現するための再生装置の全体構成を示す斜
視図である。この図からも分かるように、当該音声記録
媒体は、例えばポータブルなCDプレイヤ(再生装置本
体200)により再生可能なCD−ROMであり、この
再生装置本体200はコード接続されたハンドセット8
0によりリモート制御される。このハンドセット80に
は少なくとも再生中のセグメント番号を表示する液晶デ
ィスプレイ(LCD)等の表示部210や、各種制御用
ボタン群240が設けられている。また、操作者は再生
装置本体200で再生された音声情報をイヤホン130
を介して聴くことができる。
【0085】また、図13は、図12に示された再生装
置の構成を示すブロック図である。この図に示されたよ
うに、当該音声情報記録媒体15であるCD−ROMは
再生機構205にセットされる。再生機構205はディ
スクインターフェイス(I/F)30及びバス40を介
してCPU50に接続されている。また、バス40には
プログラムを格納するための例えば32キロバイト(K
B)のROM60と、ディレクトリや音声情報列を一時
的に格納するための例えば256キロバイトのRAM7
0とが接続されている。さらに、バス40には手動操作
のためのハンドセット80との間で情報の授受を行なう
ハンドセットインターフェイス(I/F)90と、音声
出力用のアンプ(AMP)100を介して外部端子11
0及びハンドセット80に接続されたD/Aコンパータ
12に接続されている。なお、ハンドセット80には上
述されたようにイヤホン130が接続されている。
【0086】図14(a)、(b)は、それぞれROM
60及びRAM70のメモリ割り当て状況を説明するた
めの図である。図14(a)に示されたように、32キ
ロバイトのROM60にはプログラムが格納される。一
方、図14(b)に示されたように、RAM70には、
(50+50)=100キロバイトのバッファ(50ブ
ロック分に相当)と、(75+75)=150キロバイ
トのディレクトリと、6キロバイト分のシステムエリア
が割り当てられる。したがって、RAM70には常時5
0ブロック分の音声情報列が保持され、かつ150キロ
バイト÷27≒5,555セグメント分のディレクトリ
(音声情報列Aの部分のみで約30分間に相当)が保持
される。
【0087】なお、上述の具体例では当該音声情報記録
媒体としてCD−ROMを用いているが、その代表的な
ものの容量は552メガバイト(MB)である。CD−
ROMではアドレスを表わすのに分、秒、ブロックの単
位を用いている。また、1ブロックは2,048バイ
ト、75ブロックは1秒、60秒は1分であるため、該
CD−ROMのアドレスの最大の値は59分59秒74
ブロックである。逆に、このCD−ROMの容量は2,
048×75×60×60=552.96メガバイトで
ある。このうち、最初から2秒分はCD−ROMのフォ
ーマットとしてユーザは使えないので、正確には最大容
量とし552.6528MBとなる。さらに、最初から
20秒に相当するところまでディレクトリ領域が割り当
てられると、3メガバイトのディレクトリ容量をCD−
ROMに確保することができる。
【0088】なお、上述されたこの発明の実施形態に
は、音声情報の記録ソフト(上述の記録方法をパーソナ
ルコンピュータ等で実施可能なプログラム、あるいは該
プログラムが記録された記録媒体)、専用記録装置、使
用マニュアル、あるいはこれらの組合わせによる販売、
係る音声情報記録媒体単体での販売の他、該音声情報記
録媒体、再生ソフト(パーソナルコンピュータ等で実効
可能なプログラム、あるいは該プログラムを記録した記
録媒体を含む)、専用再生装置、使用マニュアル、ある
いはこれらの組合わせによる販売が考えられる。
【0089】
【発明の効果】以上のようにこの発明は、第1周期でサ
ンプリングされた第1音声情報列から分割された複数の
周波数成分について、所望の部分に振幅を変更(強調あ
るいは減衰)したり波数を変更(再生時間を伸長するよ
うに増やすかあるいは再生時間を短縮のために減らす)
することにより、修正された正弦波データを生成し、こ
れら各周波数成分の正弦波データを加算することによ
り、新たに合成された第2音声情報列を所定の記録媒体
に記録する。このように記録された所望の音声情報列
は、周波数を変えることなく任意の部分で再生時間を伸
長あるいは短縮したり、任意部分の音声が強調あるいは
減衰された音声として再生できるという効果がある。
【0090】また、この発明は、日本国特許第2581
700号に開示された技術との組合わが可能であり、ネ
イティブスピーカーの発声音を発声の節目で分割した可
変長の区画に対応して、任意部分の音声が伸長及び/又
は強調された音声情報を別途用意することにより、初級
学習者は聞き取れなかった音声を繰り返し再生して聞く
ことができるとともに、係る音声の聞き取り難い部分が
強調・伸長された音声としても聞くことが可能になると
いう効果がある。また上級学習者とっては、任意部分の
音声が短縮及び/又は減衰された音声情報を別途用意す
ることにより、ネイティブスピーカーの発声音の再生と
組合わせて、より積極的な学習が可能になるという効果
がある。
【図面の簡単な説明】
【図1】この発明に係る音声情報の記録動作を説明する
ための概念図である。
【図2】サンプリングされた入力音声情報から分割する
各周波数成分(チャネル)の一例を示す表である。
【図3】音声スペクトルの基本的な形状を説明するため
の図である。
【図4】この発明に係る音声記録媒体に記録されるべき
音声情報列を含む各種情報を概念的に説明するための図
である。
【図5】この発明に係る音声情報の記録方法を実現する
ための周辺装置の全体構成を示す図である。
【図6】この発明に係る音声情報の記録方法を説明する
ためのフローチャート(その1)である。
【図7】この発明に係る音声情報の記録方法を説明する
ためのフローチャート(その2)である。
【図8】この発明に係る、英会話独習用に適用された音
声記録媒体の各音声情報列と、その記録内容を説明する
ための図である。
【図9】図8に示された各音声情報列について、各セグ
メント当りの時間と容量との関係を説明するための表で
ある。
【図10】図8及び図9に示された音声記録媒体におけ
るディレクトリ領域の記録内容(記録位置識別情報を含
む)を説明するための表である。
【図11】この発明に係る音声記録媒体に記録されるべ
き可変長セグメントの構成を示す図である。
【図12】この発明に係る音声記録媒体の再生方法を実
現する再生装置の全体構成を示す斜視図である。
【図13】図12に示された再生装置の構成を示すブロ
ック図である。
【図14】図13に示されたROM及びRAMのメモリ
割り当て状況を説明するための図である。
【符号の説明】
1…PC、10…制御系、14…入出力装置、15…音
声情報記録媒体、19…Vデータ、16−1〜16−8
5…正弦波データ生成回路、17、175…DAC、1
8、177…スピーカー、173…加算器。

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声情報を所定の記録媒体に記録するた
    めの音声情報の記録方法であって、 第1周期でサンプリングされた第1音声情報列を複数の
    周波数成分に分割し、 前記複数の周波数成分について、少なくとも1波形分以
    上に相当する第2周期で抽出された振幅情報からなる振
    幅情報列における1又は2以上の所定部分が選択的に編
    集された修正振幅情報列を生成し、 前記複数の周波数成分おのおのの修正振幅情報列のう
    ち、各周波数成分間で互いに対応している同じタイミン
    グで抽出された振幅情報からなる各情報成分群と、これ
    ら各情報成分群ごとに用意された、前記第1周期を基準
    にして音声再生時間の伸長あるいは短縮を指示するため
    の制御情報とからなるVデータを生成し、 前記複数の周波数成分おのおのについて、前記生成され
    たVデータで与えられる振幅を有するとともに前記第1
    周期のデータ間隔を有する正弦波データであって、前記
    Vデータに含まれる制御情報で指示された再生時間に相
    当する波数の正弦波データを生成し、 前記複数の周波数成分おのおのについて生成された正弦
    波データを順次加算することにより得られる、前記第1
    周期の第2音声情報列を所定の記録媒体に記録する音声
    情報の記録方法。
  2. 【請求項2】 前記複数の周波数成分おのおのの振幅情
    報列間で、互いに対応している選択された部分の振幅情
    報により与えられる振幅値をそれぞれ変更することによ
    り、前記複数の周波数成分おのおのの修正振幅情報列を
    生成することを特徴とする請求項1記載の音声情報の記
    録方法。
  3. 【請求項3】 前記複数の周波数成分おのおのについ
    て、生成される前記正弦波データの各振幅は、前記修正
    振幅情報列の互いに隣接した各振幅情報間の直線補間に
    より得られた値により決定されることを特徴とする請求
    項1又は2記載の音声情報の記録方法。
  4. 【請求項4】 前記制御情報は、前記複数の周波数成分
    全体を高音方向あるいは低音方向にシフトした状態で再
    生させるための周波数シフト指示情報を含むことを特徴
    とする請求項1〜3のいずれか一項記載の音声情報の記
    録方法。
  5. 【請求項5】 前記第1音声情報列は、所定の音声再生
    手段で再生出力されるべき単語列から構成された1又は
    2以上の文に対応する音声情報列であって、発音の節目
    でそれぞれ分割された情報ごとに可変長の区画に区分さ
    れた状態で前記所定の記録媒体に記録されることを特徴
    とする請求項1〜4のいずれか一項記載の音声情報の記
    録方法。
  6. 【請求項6】 前記第2音声情報列は、前記第1音声情
    報列の区画に対応して分割された区画ごとに前記所定の
    記録媒体に記録されており、さらに該記録媒体には、該
    第1音声情報列と該第2音声情報列とを前記所定の音声
    再生手段で切替え再生すべく、切替え可能な各区画を当
    該所定の記録媒体における該各区画の記録位置で示す記
    録位置識別情報が記録されることを特徴とする請求項5
    記載の音声情報の記録方法。
  7. 【請求項7】 前記請求項1記載の音声情報の記録方法
    により第2音声情報列が記録された音声情報記録媒体。
  8. 【請求項8】 所定周期でサンプリングされた第1音声
    情報列を構成する各周波数成分について、各周波数成分
    間で互いに対応している1又は2以上の部分に対し、少
    なくとも振幅が変更されるかあるいは波形数を変更され
    ることにより、選択的に振幅及び再生時間が編集された
    第2音声情報列が少なくとも記録された音声情報記録媒
    体。
  9. 【請求項9】 前記第1音声情報列は、所定の音声再生
    手段で再生出力されるべき単語列から構成された1又は
    2以上の文に対応する音声情報列であって、発音の節目
    でそれぞれ分割された情報ごとに可変長の区画に区分さ
    れた状態で記録されている特徴とする請求項7又は8記
    載の音声情報記録媒体。
  10. 【請求項10】 前記第2音声情報列は、前記第1音声
    情報列の区画に対応して分割された区画ごとに記録され
    ており、さらに該第1音声情報列と該第2音声情報列と
    を前記所定の音声再生手段で切替え再生すべく、切替え
    可能な各区画を当該所定の記録媒体における該各区画の
    記録位置で示す記録位置識別情報が記録されたことを特
    徴とする請求項9記載の音声情報記録媒体。
  11. 【請求項11】 所定の記録媒体に予め記録されている
    音声情報列を再生するための音声情報の再生方法におい
    て、 前記記録媒体は、所定の音声再生手段で再生出力される
    べき単語列から構成された1又は2以上の文に対応する
    音声情報列であって、発音の節目でそれぞれ分割された
    情報ごとに可変長の区画に区分された第1音声情報列
    と、該第1音声情報列の区画に対応して分割された音声
    情報列であって、該第1音声情報列を構成する各周波数
    成分について、各周波数成分間で互いに対応している1
    又は2以上の部分に対し、少なくとも振幅が変更される
    かあるいは波形数を変更されることにより、選択的に振
    幅強度及び再生時間が変更された第2音声情報列と、該
    第1音声情報列と該第2音声情報列とを前記所定の音声
    再生手段で切替え再生すべく、切替え可能な各区画を当
    該所定の記録媒体における該各区画の記録位置で示す記
    録位置識別情報とを少なくとも含み、 前記第1音声情報列の再生中あるいは中断の後に入力さ
    れた前記第2音声情報列の再生命令に対し、再生中の前
    記第1音声情報列中の区画に対応する前記第2音声情報
    列中の区画の音声情報列を前記記録位置識別情報に基づ
    いて前記記録媒体から読み出し、該読み出された音声情
    報列を前記所定の音声再生手段により再生する第1ステ
    ップと、 前記第2音声情報列の再生中あるいは中断の後に入力さ
    れた前記第1音声情報列の再生命令に対し、再生中の前
    記第2音声情報列中の区画に対応する前記第1音声情報
    列中の区画の音声情報列を前記記録位置識別情報に基づ
    いて前記記録媒体から読み出し、該読み出された音声情
    報列を前記所定の音声再生手段により再生する第2ステ
    ップと、を少なくとも備えた音声情報の再生方法。
  12. 【請求項12】 前記請求項11記載の音声情報の再生
    方法を実施するための音声情報列の再生装置。
JP24967298A 1998-09-03 1998-09-03 音声情報の符号化方法及びその生成方法 Expired - Fee Related JP3617603B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24967298A JP3617603B2 (ja) 1998-09-03 1998-09-03 音声情報の符号化方法及びその生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24967298A JP3617603B2 (ja) 1998-09-03 1998-09-03 音声情報の符号化方法及びその生成方法

Publications (2)

Publication Number Publication Date
JP2000081897A true JP2000081897A (ja) 2000-03-21
JP3617603B2 JP3617603B2 (ja) 2005-02-09

Family

ID=17196497

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24967298A Expired - Fee Related JP3617603B2 (ja) 1998-09-03 1998-09-03 音声情報の符号化方法及びその生成方法

Country Status (1)

Country Link
JP (1) JP3617603B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001356677A (ja) * 2000-06-13 2001-12-26 Toshio Yoshimura 語学学習装置および語学データ処理方法
JP2002055592A (ja) * 2000-05-31 2002-02-20 People Co Ltd 外国語の言語音素識別野形成方法、外国語言語音素識別野形成装置、外国語言語音素識別野形成システム、及び外国語言語音素識別野形成プログラム
JP2002169461A (ja) * 2000-11-30 2002-06-14 Norio Watanabe 語学レッスン装置
JP2002258728A (ja) * 2001-03-02 2002-09-11 Matsui Rika 聴覚トレーニング装置
DE10197182B4 (de) * 2001-01-22 2005-11-03 Kanars Data Corp. Verfahren zum Codieren und Decodieren von Digital-Audiodaten
JP2006208806A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 言語学習装置
JP2006284645A (ja) * 2005-03-31 2006-10-19 Nec Corp 音声再生装置およびその再生プログラムならびにその再生方法
US8000975B2 (en) 2007-02-07 2011-08-16 Samsung Electronics Co., Ltd. User adjustment of signal parameters of coded transient, sinusoidal and noise components of parametrically-coded audio before decoding

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002055592A (ja) * 2000-05-31 2002-02-20 People Co Ltd 外国語の言語音素識別野形成方法、外国語言語音素識別野形成装置、外国語言語音素識別野形成システム、及び外国語言語音素識別野形成プログラム
JP2001356677A (ja) * 2000-06-13 2001-12-26 Toshio Yoshimura 語学学習装置および語学データ処理方法
JP2002169461A (ja) * 2000-11-30 2002-06-14 Norio Watanabe 語学レッスン装置
DE10197182B4 (de) * 2001-01-22 2005-11-03 Kanars Data Corp. Verfahren zum Codieren und Decodieren von Digital-Audiodaten
JP2002258728A (ja) * 2001-03-02 2002-09-11 Matsui Rika 聴覚トレーニング装置
JP2006208806A (ja) * 2005-01-28 2006-08-10 Advanced Telecommunication Research Institute International 言語学習装置
JP4669988B2 (ja) * 2005-01-28 2011-04-13 株式会社国際電気通信基礎技術研究所 言語学習装置
JP2006284645A (ja) * 2005-03-31 2006-10-19 Nec Corp 音声再生装置およびその再生プログラムならびにその再生方法
US8000975B2 (en) 2007-02-07 2011-08-16 Samsung Electronics Co., Ltd. User adjustment of signal parameters of coded transient, sinusoidal and noise components of parametrically-coded audio before decoding

Also Published As

Publication number Publication date
JP3617603B2 (ja) 2005-02-09

Similar Documents

Publication Publication Date Title
JP3617603B2 (ja) 音声情報の符号化方法及びその生成方法
JP3620787B2 (ja) 音声データの符号化方法
JPS6073589A (ja) 音声合成装置
KR100383061B1 (ko) 디지털 오디오와 그의 캡션 데이터를 이용한 학습방법
JP5560769B2 (ja) 音素符号変換装置および音声合成装置
JPS6184771A (ja) 音声入力装置
JPH11249679A (ja) 音声合成装置
JP2001154684A (ja) 話速変換装置
JPH02153397A (ja) 音声収録装置
JP6911398B2 (ja) 音声対話方法、音声対話装置およびプログラム
JPS60225198A (ja) 規則による音声合成装置
JPS6295595A (ja) 音声応答方式
JPH09330094A (ja) テンポ可変機能付き音声再生装置
JP5481958B2 (ja) 音素符号変換装置および音声合成装置
KR20010029111A (ko) 외국어 청취 보조 장치
JP5481957B2 (ja) 音声合成装置
JP2000162954A (ja) 言語学習装置及びこれを具備した電子機器
JPH11134791A (ja) 音声記録媒体、その再生方法、及び音声再生中の割込み処理方法
JP2962777B2 (ja) 音声信号の時間軸伸長圧縮装置
JPH01170978A (ja) 外国語学習装置
JPS59185395A (ja) 音声応答装置
JPH0512708B2 (ja)
JPH04213499A (ja) 規則音声合成装置
JPH0135360B2 (ja)
Kolkowski et al. Horatio Oratorio: composing using historic sound recordings.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040609

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040806

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20040827

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041102

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees