JP2007003845A

JP2007003845A - 再生情報生成装置及び音声再生装置

Info

Publication number: JP2007003845A
Application number: JP2005184217A
Authority: JP
Inventors: Kenichiro Tomita; 憲一郎富田
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 2005-06-24
Filing date: 2005-06-24
Publication date: 2007-01-11

Abstract

【課題】平均音量が互いに異なる音声が連続して再生される場合に、ユーザは、再生音量を調整しなくてはならず大変面倒であった。
【解決手段】予め選択された複数の音声データについて、それら音声データの表す各音声を再生する際に用いられる再生情報を生成するための再生情報生成装置であって、複数の音声データから各音声の平均音量が略一定となるような補正量を各音声データ毎に算出する補正量算出部と、算出された各補正量とそれら補正量と各音声データとの対応関係を示す対応関係情報とを少なくとも含むように再生情報を生成する生成部と、を備える再生情報生成装置。
【選択図】図１

Description

本発明は、複数の音声データの表す各音声を再生する場合に、各音声の平均音量を略一定に保つことが可能な技術に関する。

従来から、複数の音声データファイル（音声のみを表すデータファイル、及び音声と動画像とを表すデータファイル）を、予め指定した順序で記録媒体から読み出し、これらファイルを連続して再生する再生装置が提案されている（下記特許文献１参照）。

特開２００４−１２０５５１号公報

前述の再生装置において、複数の音声データファイルが連続して再生されると、各ファイルに含まれる音声が連続して再生されることとなる。このとき、各音声の平均音量が互いに異なる場合がある。これは、例えば、工場の騒音やささやき声のように、音声の内容がそれぞれ異なる場合や、音声の録音レベルがそれぞれ異なる場合に起こり得る。

このように、平均音量が互いに異なる音声が連続して再生されると、１つの音声の再生が終わり、次の音声が再生された途端に音量が大きく（若しくは小さく）なり、音声が聞きづらくなる場合がある。かかる場合に、ユーザは、再生装置のリモコンや再生装置の本体に備えられたボリューム調整ボタン等により、再生音量を調整しなくてはならず大変面倒であった。

本発明は、上述の課題の少なくとも一部を解決するためになされたものであり、複数の音声データの表す各音声を再生する場合に、各音声の平均音量を略一定に保つことが可能な技術を提供することを目的とする。

前述の課題の少なくとも一部を解決するために、本発明の再生情報生成装置は、予め選択された複数の音声データについて、それら音声データの表す各音声を再生する際に用いられる再生情報を生成するための再生情報生成装置であって、前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する補正量算出部と、前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する生成部と、を備えることを要旨とする。

このような構成とすることで、生成部が生成する再生情報には、補正量算出部により算出された、各音声の平均音量が略一定となるような補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、が少なくとも含まれる。従って、各音声を再生するにあたり、この再生情報に基づき、再生情報に含まれる対応関係情報を参照して、各音声データに対応する補正量を導き出すことができる。また、このようにして導き出した補正量を用いて各音声データを補正することにより、再生される各音声の平均音量を略一定にすることができる。その結果、ユーザは再生される音声が変わる度に、再生音量を調整しなくてよい。また、生成部は、音声データとは別に、補正量を含む再生情報を生成するので、オリジナルの音声データを加工することなく再生される各音声を略一定にすることができる。

上記再生情報生成装置において、前記補正量算出部は、前記補正量を算出する場合に、各音声の音声波形の振幅と、前記音声波形を構成する互いに周波数が異なる正弦波の、前記音声波形に含まれる割合と、前記正弦波の周波数に応じた重み付け値と、に基づき、各音声の平均音量を算出すると共に、前記算出した平均音量に基づき、前記補正量を算出することが好ましい。

このような構成とすることで、補正量算出部は、各音声の音声波形の振幅と、音声波形を構成する互いに周波数が異なる正弦波の、音声波形に含まれる割合と、の他に、正弦波の周波数に応じた重み付け値に基づき、各音声の平均音量を算出する。ここで、体感音量（人間の聴覚で感じる音量）は、同じ音圧でも正弦波の周波数によって異なるので、重み付け値が、この体感音量に基づく周波数に応じた重み付け値であれば、この重み付け値に基づき各音声の平均音量を算出することで、各音声の体感音量としての平均音量を算出することが可能となる。

本発明の第１の音声再生装置は、予め選択された複数の音声データについて、それら音声データの表す各音声を再生することが可能な音声再生装置であって、各音声データ毎の補正量及びそれら補正量と各音声データとの対応関係を示す対応関係情報を少なくとも含む再生情報と、前記複数の音声データと、を入力する入力部と、前記入力された各音声データ毎に、前記入力された再生情報に含まれる前記対応関係情報を参照して、該音声データに対応する前記補正量を導き出すと共に、前記導き出した補正量を用いて該音声データを補正する補正部と、前記補正された複数の音声データの表す各音声を再生する再生部と、を備えることを要旨とする。

このような構成とすることで、補正部が各音声データを補正する際に用いる補正量は、各音声データに対応する補正量である。従って、補正量が、各音声の平均音量が略一定となるように各音声データに対応して定められていれば、補正部は、この補正量を用いて音声データを補正することにより、補正後の各音声データの表す各音声の平均音量を略一定にすることができる。その結果、再生部が再生する各音声の平均音量は略一定となるので、ユーザは再生される音声が変わる度に再生音量を調整しなくてよい。

本発明の第２の音声再生装置は、予め選択された複数の音声データについて、それら音声データの表す各音声を再生することが可能な音声再生装置であって、前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する補正量算出部と、前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する生成部と、各音声データ毎に、前記生成された再生情報に含まれる前記対応関係情報を参照して、該音声データに対応する前記補正量を導き出すと共に、前記導き出した補正量を用いて該音声データを補正する補正部と、前記補正された複数の音声データの表す各音声を再生する再生部と、を備えることを要旨とする。

このような構成とすることで、生成部が生成する再生情報には、補正量算出部により算出された、各音声の平均音量が略一定となるような補正量と、各音声データとの対応関係を示す対応関係情報と、が少なくとも含まれる。従って、音声データの表す音声を再生するにあたり、補正部は、この再生情報に含まれる対応関係情報を参照して、この音声データに対応する補正量を導き出すと共に、導き出した補正量を用いてこの音声データを補正することができる。また、このようにして補正された各音声データの表す音声の平均音量は略一定となるので、再生部が再生する各音声の平均音量は略一定となり、ユーザは再生される音声が変わる度に、再生音量を調整しなくてよい。また、生成部は、音声データとは別に、補正量を含む再生情報を生成するので、オリジナルの音声データを加工することなく再生される各音声を略一定にすることができる。

なお、本発明は、上記した再生情報生成装置や音声再生装置としての構成の他、その音声再生装置を備えるプロジェクタとしても構成することができる。また、そのような装置発明の態様に限ることなく、再生情報生成方法や音声再生方法などの方法発明としての態様で実現することも可能である。さらには、それら方法や装置を構成するためのコンピュータプログラムとしての態様や、そのようなコンピュータプログラムを記録した記録媒体としての態様や、上記コンピュータプログラムを含み搬送波内に具現化されたデータ信号など、種々の態様で実現することも可能である。

本発明をコンピュータプログラムまたはそのプログラムを記録した記録媒体等として構成する場合には、再生情報生成装置や音声再生装置を制御するプログラム全体として構成するものとしてもよいし、本発明の機能を果たす部分のみを構成するものとしてもよい。また、記録媒体としては、ＲＯＭカートリッジ、パンチカード、バーコードなどの符合が印刷された印刷物、コンピュータの内部記憶装置（ＲＡＭやＲＯＭなどのメモリ）および外部記憶装置などコンピュータが読み取り可能な種々の媒体を利用できる。

以下、本発明を実施するための最良の形態を実施例に基づいて以下の順序で説明する。
Ａ．実施例：
Ａ１．プロジェクタ及びプレゼンテーションシステムの概要構成：
Ａ２．コンテンツ再生処理：
Ａ３．実施例の効果：
Ｂ．変形例：

Ａ．実施例：
Ａ１．プロジェクタ及びプレゼンテーションシステムの概要構成：
図１は、本発明の一実施例としてのプロジェクタの概要構成を示す機能ブロック図である。図１に示すプロジェクタＰＪ１は、主として、デジタルデータ再生ＩＣ（Integrated Circuit）１００と、ＤＲＡＭ１４０と、フラッシュメモリ１４１と、メモリカードスロット１２０と、メモリカードスロット１２０に挿入されたメモリカードからのデータの読み出し／書き込みを行うメモリカード制御部１２１と、リモコン１３１と、リモコン１３１から送信されるユーザの指示をデジタルデータ再生ＩＣ１００に出力するリモコン制御部１３０と、を備える。

さらに、プロジェクタＰＪ１は、音声を再生するための機能部として、デジタル音声データをアナログ音声信号に変換するＤＡＣ（Digital-Analog Converter）１１０と、オーディオアンプ及び音量調整ＩＣを有する音量調整部１１１と、スピーカ１１２と、を備える。

また、プロジェクタＰＪ１は、画像を再生するための機能部として、液晶パネル駆動部１５０と、照明光学系１５１と、液晶パネル１５２と、投写光学系１５３と、を備える。

前述のデジタルデータ再生ＩＣ１００は、ＣＰＵ１０１，メモリ制御部１０２，音声処理部１０３，画像処理部１０４を備えており、それぞれ内部バスによって接続されている。

また、前述のフラッシュメモリ１４１には、予め、補正係数テーブルＴｂが記憶されている。さらに、フラッシュメモリ１４１には、予め、音声や画像を再生するためのアプリケーションプログラムと、音声データの音量補正値を算出するためのアプリケーションプログラムと、が記憶されている。そして、ＣＰＵ１０１は、これらのアプリケーションプログラムを実行することにより、それぞれ、再生処理部１０１ａ及び補正値算出部１０１ｂとして機能することになる。

なお、前述の補正値算出部１０１ｂが請求項における補正量算出部及び生成部に、前述の再生処理部１０１ａ及び音声処理部１０３が請求項における補正部に、前述のＤＡＣ１１０，音量調整部１１１，スピーカ１１２が請求項における再生部に、前述のメモリカードスロット１２０及びメモリカード制御部１２１が請求項における入力部に、それぞれ相当する。

図２は、図１に示すプロジェクタＰＪ１を備えたプレゼンテーションシステムの概要構成を示す説明図である。図２に示すプレゼンテーションシステム２０００は、前述のプロジェクタＰＪ１と、パーソナルコンピュータＰＣ１と、を備える。

このプレゼンテーションシステム２０００は、パーソナルコンピュータＰＣ１に記憶されている音声データファイルや画像データファイル（静止画像のみを表すデータファイル）の表す音声や画像（動画像）のコンテンツを、プロジェクタＰＪ１において、ユーザの所望する再生方法（再生順序や再生時間等）で再生するシステムである。

ここで、パーソナルコンピュータＰＣ１からプロジェクタＰＪ１へのデータの移動は、メモリカードＭＣを介して行われる。すなわち、ユーザは、パーソナルコンピュータＰＣ１において音声データファイルや画像データファイルをメモリカードＭＣに記憶させ、このメモリカードＭＣをプロジェクタＰＪ１のメモリカードスロット１２０に挿入する。

また、ユーザは、再生させたいコンテンツのデータファイルの他に、コンテンツの再生方法を記述したファイル（以下、「コンテンツ再生情報ファイル」と呼ぶ。）も併せてメモリカードＭＣに記憶させる。

そして、プロジェクタＰＪ１は、このコンテンツ再生情報ファイルに記載された再生方法に従ってコンテンツを再生し、画像をスクリーン等に投写表示させると共にスピーカ１１２から音声を出力する。このとき、プロジェクタＰＪ１は、順次再生する音声について、それぞれの平均音量がほぼ一定となるようにする。

Ａ２．コンテンツ再生処理：
コンテンツ再生処理の前提として、ユーザが、図２に示すプレゼンテーションシステム２０００を用いてプレゼンテーションを行うために、パーソナルコンピュータＰＣ１において、再生させたいコンテンツのデータファイルをメモリカードＭＣに記憶させ、このメモリカードＭＣをプロジェクタＰＪ１のメモリカードスロット１２０に挿入する。

ここで、ユーザがメモリカードＭＣに記憶させたデータファイルは、図２に示すようなディレクトリ構成で記憶されている。すなわち、Ｍｕｓｉｃディレクトリには、ファイル「Ｊａｚｚ００１．ｗａｖ」，「Ｃｌａｓｓｉｃ００３．ｍｐ３」が、Ｍｏｖｉｅｓディレクトリにはファイル「Ｄｅｍｏ００４．ｍｐｇ」が、Ｐｉｃｔｕｒｅｓディレクトリには、ファイル「Ａ００１．ｊｐｇ」〜「Ａ００３．ｊｐｇ」，「Ｂ００１．ｊｐｇ」〜「Ｂ００３．ｊｐｇ」が、それぞれ格納されている。

これらファイルのうち、拡張子「．ｗａｖ」のファイルはWindows（登録商標）標準の音声ファイルを、拡張子「．ｍｐ３」のファイルは「MPEG1 Audio Layer-3」形式で圧縮された音声ファイルを、拡張子「．ｍｐｇ」のファイルはMPEG1形式で圧縮された動画像ファイルを、拡張子「．ｊｐｇ」のファイルはＩＳＯ（International Organization for Standardization）で標準化された圧縮された静止画像ファイルを、それぞれ示す。なお、音声ファイル及び動画像ファイルが前述の音声データファイルに相当し、静止画像ファイルが前述の画像データファイルに相当する。

また、ユーザは、これらデータファイルの他に、設定ファイル「ＡＵＴＯＲＵＮ．ＣＦＧ」及び前述のコンテンツ再生情報ファイルである「ＳＩＮＲ００３．ＣＦＧ」をメモリカードＭＣに記憶させる。

ここで、設定ファイル「ＡＵＴＯＲＵＮ．ＣＦＧ」は、後述するコンテンツ再生処理において最初に読み出されるファイルであり、コンテンツ再生情報ファイルが複数あった場合に、いずれのファイルをコンテンツ再生処理において参照すべきかを指定するためのファイルである。なお、ユーザは、予め、この参照すべきコンテンツ再生情報ファイルとして「ＳＩＮＲ００３．ＣＦＧ」を指定して「ＡＵＴＯＲＵＮ．ＣＦＧ」を作成しているものとする。

そして、ユーザは、図１に示すリモコン１３１を操作して、プロジェクタＰＪ１の操作メニューからプレゼンテーション自動再生メニューを選択して実行を指示する。このようにして、ユーザによりプレゼンテーション自動再生が指示されると、プロジェクタＰＪ１においてコンテンツ再生処理が開始される。

コンテンツ再生処理が開始されると、図１に示す再生処理部１０１ａは、メモリカード制御部１２１を介して、メモリカードスロット１２０に挿入されたメモリカードＭＣから、設定ファイル「ＡＵＴＯＲＵＮ．ＣＦＧ」を読み出す。そして、読み出したファイル「ＡＵＴＯＲＵＮ．ＣＦＧ」において指定されたコンテンツ再生情報ファイルをメモリカードＭＣから読み出す。

前述のように、設定ファイル「ＡＵＴＯＲＵＮ．ＣＦＧ」には、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」が指定されているので、再生処理部１０１ａは、メモリカードＭＣから、このコンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」を読み出す。

図３は、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」の記載内容及びコンテンツの再生順序を模式的に示す説明図である。図３において、（Ａ）はコンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」の記載内容を示し、（Ｂ）は（Ａ）の記載内容の表すコンテンツの再生順序を示す。

図３（Ａ）に示すように、コンテンツ情報ファイル「ＳＩＮＲ００３．ＣＦＧ」は、大きく分けて、設定部分と、主要部分である「コンテンツ１」，「コンテンツ２」，「コンテンツ３」と、から成る。これらのうち、設定部分には、このコンテンツ再生情報ファイルのファイル名やこのファイルのバージョンが記載されている。

「コンテンツ１」では、音声ファイル「Ｊａｚｚ００１．ｗａｖ」を再生しながら、静止画像ファイル「Ａ００１．ｊｐｇ」，「Ａ００２．ｊｐｇ」，「Ａ００３．ｊｐｇ」を、この順序で再生する旨が指定されている。「コンテンツ２」では、動画像ファイル「Ｄｅｍｏ００４．ｍｐｇ」を再生する旨が指定されている。

「コンテンツ３」では、コンテンツ１と同様に、音声ファイル「Ｃｌａｓｓｉｃ００３．ｍｐ３」を再生しながら、静止画像ファイル「Ｂ００１．ｊｐｇ」，「Ｂ００２．ｊｐｇ」，「Ｂ００３．ｊｐｇ」を、この順序で再生する旨が指定されている。

そして、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」では、図３（Ｂ）に示すように、「コンテンツ１」，「コンテンツ２」，「コンテンツ３」を、この順序で記載することにより、コンテンツ１〜３を、この順序で再生するように指定している。

なお、ユーザは、このコンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」を、パーソナルコンピュータＰＣ１において、プレゼンテーション用のコンテンツを整理するためのアプリケーションを実行させて作成する。

図１に示す再生処理部１０１ａが、読み出したコンテンツ再生情報ファイルにおいて、音声データファイルが指定されていることを確認すると、本発明の特徴部分である音声再生処理が開始される。

図４は、本実施例における音声再生処理の手順を示すフローチャートである。図４に示す音声再生処理が開始されると、図１に示す補正値算出部１０１ｂにより、音量補正値算出処理が実行される（ステップＳ２０２）。

図５は、補正値算出部１０１ｂにより実行される音量補正値算出処理の手順を示すフローチャートである。図５に示す音量補正値算出処理が開始されると、図１に示す補正値算出部１０１ｂは、コンテンツ再生情報ファイルで指定された、最初の音声データファイルをメモリカードＭＣから読み出してＤＲＡＭ１４０に記憶させる（ステップＳ３０２）。

図３に示すように、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」では、最初の音声データファイルとして、「Ｊａｚｚ００１．ｗａｖ」が指定されているので、補正値算出部１０１ｂは、メモリカードＭＣから「Ｊａｚｚ００１．ｗａｖ」を読み出してＤＲＡＭ１４０に記憶させる。

次に、補正値算出部１０１ｂは、ＤＲＡＭ１４０に記憶させた音声データファイルを読み出し、音声データファイルの示す各チャネルの波形データを合成し、合成波形データをＤＲＡＭ１４０に記憶させる（ステップＳ３０４）。「Ｊａｚｚ００１．ｗａｖ」については、音声（波）を所定の周波数（例えば、４４．１ｋＨｚ）でサンプリングして、所定のビット精度（例えば、１６ビット）で表現した波形データを含んでいる。そして、ステレオ音声の場合には、かかる波形データが２チャネル分（右チャネル及び左チャネル）含まれているので、これらチャネルの波形データを足し合わせて、波形データを合成する。

なお、「Ｄｅｍｏ００４．ｍｐｇ」及び「Ｃｌａｓｓｉｃ００３．ｍｐ３」に含まれる音声データは圧縮されたデータであり、波形データそのままではないので、音声データを波形データに変換した後に波形データを合成する。

なお、前述の音声ファイル「Ｊａｚｚ００１．ｗａｖ」に基づく合成波形データのビット精度は、説明の便宜上、１６ビットであるものとする。

次に、補正値算出部１０１ｂは、ＤＲＡＭ１４０に記憶させた合成波形データを読み出し、ビット精度の中央値を０とした場合の合成波形データの表す波形（合成波形）の最大振幅値を求め、ＤＲＡＭ１４０に記憶させる（ステップＳ３０６）。

前述のように、合成波形データのビット精度が１６ビットである場合、ビット精度の中央値は、３２７６８（１０進表示）である。そして、合成波形の振幅の範囲が、例えば、６２６８〜６０５６８である場合、ビット精度の中央値を０とすると、合成波形の振幅の範囲は、２６５００〜２７８００となる。従って、この場合、最大振幅は「２７８００」となり、この最大振幅値「２７８００」がＤＲＡＭ１４０に記憶される。

次に、補正値算出部１０１ｂは、合成波形のうち、無音部分を除く有音部分について、単位期間毎に、各周波数成分（合成波形を構成する互いに異なる周波数の正弦波）の合成波形に含まれる割合を算出し、この割合の高い上位３成分の周波数及び割合をＤＲＡＭ１４０に記憶させる（ステップＳ３０８）。

具体的には、まず、前述の合成波形データを、ビット精度の中央値（３２７６８）を０とするように正規化する。次に、無音とみなすしきい値を定め、このしきい値を下回る値が一定期間（例えば４秒）以上連続する期間を無音部分として定める。次に、この無音部分を除く有効部分について、０．１秒を単位期間として、この単位期間毎に合成波形をフーリエ変換し、各周波数成分の割合を求める。なお、前述の無音を示すしきい値は、正規化後の合成波形データを大きい順に並べたときに、上位２０％に最も近い値の１／１６の値として算出して定める。

そして、例えば、最初の０．１秒が有効部分であり、フーリエ変換した結果、上位３成分の周波数（割合）が、１０００Ｈｚ波（０．６２３），２５０Ｈｚ波（０．２１４），１２５Ｈｚ（０．１１９）であった場合には、これら周波数成分の周波数及び割合がＤＲＡＭ１４０に記憶される。

次に、補正値算出部１０１ｂは、ＤＲＡＭ１４０から最大振幅値の他、各単位期間毎の上位３成分の周波数及び割合を読み出すと共に、フラッシュメモリ１４１から補正係数テーブルＴｂを読み出す。そして、補正値算出部１０１ｂは、読み出した上記３成分の周波数及び割合と、補正係数テーブルＴｂと、に基づき、単位期間毎の体感音量の指標値となる音量表現値を、下記式（１）に従って算出する（ステップＳ３１０）。

Ｒ＝最大振幅値×Σ（各周波数成分の割合×各周波数成分の補正係数）・・・（１）

ここで、式（１）に示す「各周波数成分の補正係数」については、補正値算出部１０１ｂが、補正係数テーブルＴｂに基づき各周波数毎に導き出す。

図６は、図１に示す補正係数テーブルＴｂの内容を示す説明図である。図６に示すように、補正係数テーブルＴｂでは、所定の周波数幅ごとに補正係数が定められている。この補正係数は、ＩＳＯ２２６：２００３において規定された等ラウドネス曲線（１０００Ｈｚで音圧４０ｄＢの正弦波の体感音量を基準として、この基準となる体感音量を得るための、各周波数毎の音圧を示す曲線）に基づいて定められている。

等ラウドネス曲線によると、例えば、１２５Ｈｚの正弦波の場合、前述の基準となる体感音量を得るために、およそ６０ｄＢの音圧が必要となる。従って、同じ音圧であれば、１２５Ｈｚの正弦波は、１０００Ｈｚの正弦波に比べて１／１００の体感音量となる。このように、周波数によって体感音量が異なるので、本実施例では、体感音量に基づく各周波数に応じた重み付けを補正係数として、各周波数成分の割合に掛け合わせるようにして音量表現値を算出するようにしている。

具体的には、１０００Ｈｚの正弦波の体感音量を「１」とした場合の、各周波数毎の体感音量（前述の１２５Ｈｚの正弦波であれば、体感音量「０．０１」）を、各周波数における補正係数として、音量表現値を算出している。

なお、等ラウドネス曲線にあてはめれば、各周波数毎に補正係数を求めることは可能であるが、説明の便宜上、図６に示すように、所定の周波数幅ごとに補正係数の代表値を定めている。

そして、例えば、最初の０．１秒についての上位３成分（１０００Ｈｚ波，２５０Ｈｚ波，１２５Ｈｚ波）についての補正係数は、図６に示す補正係数テーブルに基づき、それぞれ「１」，「０．１」，「０．０１」と定められる。従って、最初の０．１秒についての音量表現値Ｒ１は、上記式（１）に従って、以下のように算出される。

Ｒ１＝２７８００×（０．６２３×１＋０．２１４×０．１＋０．１１９×０．０１）
＝１７９４７

図５に戻って、補正値算出部１０１ｂは、単位期間毎に算出した音量表現値を所定の基準値に補正する場合の割合ｄを、下記式（２）に従って算出し、ＤＲＡＭ１４０に記憶させる（ステップＳ３１２）。ここで、下記式（２）において、「１６３８４」は基準値を示し、この基準値は、１０００Ｈｚの正弦波を１００％含み、最大振幅がビット精度の最大振幅の５０％である音声について、上記式（１）により算出した音量表現値である。

ｄ＝（１６３８４／Ｒ−１）×１００・・・（２）

具体的には、例えば、前述の最初の０．１秒についての音量表現値Ｒ１については、上記式（２）に音量表現値Ｒ１「１７９４７」を代入して、−８．７１（％）と算出される。そして、この算出された割合ｄは、最初の０．１秒についての音量表現値Ｒ１を８．７１（％）小さくすることで、基準値に補正できることを示す。

次に、補正値算出部１０１ｂは、ＤＲＡＭ１４０から、単位期間毎に算出した前述の割合ｄを読み出し、読み出した各割合ｄのうち、上位２０％及び下位２０％を除いた割合ｄについて最小２乗法で平均値を算出する（ステップＳ３１４）。なお、上位２０％及び下位２０％を除く理由は、特異点を排除して適切な平均値を得るためである。

そして、補正値算出部１０１ｂは、算出した平均値を、当該音声データファイルの音量補正値として、ＤＲＡＭ１４０に読み出したコンテンツ再生情報ファイルの当該音声データファイルの指定箇所に追記する（ステップＳ３１６）。

具体的には、例えば、前述の音声ファイル「Ｊａｚｚ００１．ｗａｖ」について、音量補正値として「＋１２％」が算出された場合に、補正値算出部１０１ｂは、図３（Ａ）において破線で示すように、ファイル名「Ｊａｚｚ００１．ｗａｖ」の後に続けて「／ＶＯＬ＋１２」を追記する。このように追記することで、音声ファイル「Ｊａｚｚ００１．ｗａｖ」に音量補正値「＋１２％」を対応付けることができる。

次に、補正値算出部１０１ｂは、コンテンツ再生情報ファイルで指定された全ての音声データファイルについて、音量補正値をコンテンツ再生情報ファイルに追記したか否かを判定する（ステップＳ３１８）。全ての音声データファイルについて音量補正値を追記していないと判定した場合に、補正値算出部１０１ｂは、次の音声データファイルをメモリカードＭＣから読み出し（ステップＳ３２０）、上述したステップＳ３０４〜ステップＳ３１８の処理を実行する。

以上の音声補正値算出処理の結果、上述した「Ｊａｚｚ００１．ｗａｖ」と同様にして、「Ｄｅｍｏ００４．ｍｐｇ」，「Ｃｌａｓｓｉｃ００３．ｍｐ３」について、それぞれ音量補正値として、例えば、「＋２２％」，「−８％」が算出された場合、図３（Ａ）において破線で示すように、それぞれ「／ＶＯＬ＋２２」，「／ＶＯＬ−８」が、各音声データファイル名の後に追記される。

図４に戻って、音量補正値算出処理が終了すると、図１に示す再生処理部１０１ａは、ＤＲＡＭ１４０から、音量補正値が追記されたコンテンツ再生情報ファイルを読み出し、このコンテンツ再生情報ファイルに従って、指定された音声データファイルをメモリカードＭＣから順次読み出し、音声データファイルに含まれる波形データを音声処理部１０３に出力する。このとき、再生処理部１０１ａは、コンテンツ再生情報ファイルを参照して、当該音声データファイルに対応する音量補正値を導き出し、波形データと共に音声処理部１０３に出力する（ステップＳ２０４）。

具体的には、例えば、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」に従って、再生処理部１０１ａは、まず、音声ファイル「Ｊａｚｚ００１．ｗａｖ」の波形データ及び音量補正値「＋１２％」を音声処理部１０３に出力する。そして、静止画像ファイル「Ａ００１．ｊｐｇ」〜「Ａ００３．ｊｐｇ」（コンテンツ１）の再生が終わると、次に、動画像ファイル「Ｄｅｍｏ００４．ｍｐｇ」の波形データ及び音量補正値「＋２２％」を音声処理部１０３に出力する。そして、この動画像ファイル「Ｄｅｍｏ００４．ｍｐｇ」（コンテンツ２）の再生が終わると、音声ファイル「Ｃｌａｓｓｉｃ００３．ｍｐ３」の波形データ及び音量補正値「−８％」を音声処理部１０３に出力する。

なお、「Ｄｅｍｏ００４．ｍｐｇ」及び「Ｃｌａｓｓｉｃ００３．ｍｐ３」については、再生処理部１０１ａは、圧縮されたデータを波形データに変換した後に音声処理部１０３に出力する。

次に、音声処理部１０３は、再生処理部１０１ａから入力された波形データを、入力された音量補正値を用いて順次補正してＤＡＣ１１０に出力する（ステップＳ２０６）。従って、例えば、「Ｊａｚｚ００１．ｗａｖ」であれば「＋１２％」だけ、「Ｄｅｍｏ００４．ｍｐｇ」であれば「＋２２％」だけ、「Ｃｌａｓｓｉｃ００３．ｍｐ３」であれば「−８％」だけ、それぞれの波形データが補正されてＤＡＣ１１０に出力される。

ここで、波形データを補正した場合に、補正前後で合成波形の周波数成分は変わらないので、音量表現値Ｒを求める上記式（１）の右辺については、最大振幅値のみが音量補正値だけ補正されることとなる。従って、補正後の単位期間毎の音量表現値Ｒは、補正前に比べて音量補正値だけ補正されることとなる。それ故、補正後の合成波形（音声）の平均音量表現値は、ほぼ前述の基準値となる。

従って、各ファイル「Ｊａｚｚ００１．ｗａｖ」，「Ｄｅｍｏ００４．ｍｐｇ」，「Ｃｌａｓｓｉｃ００３．ｍｐ３」の波形データを、それぞれ補正した後の各音声の平均音量表現値は、ほぼ一定となる。

次に、ＤＡＣ１１０は、補正された波形データを、アナログ音声信号に順次変換して音量調整部１１１に出力する（ステップＳ２０８）。そして、音量調整部１１１は、ユーザが、リモコン１３１やプロジェクタＰＪ１本体が備えるボリューム調整ボタン（図示省略）で設定した音量となるように、入力されたアナログ音声信号をアンプで増幅し、スピーカ１１２に出力する（ステップＳ２１０）。

以上の音声再生処理の結果、コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」に従って、音量補正値で補正された波形データの示す音声が、スピーカ１１２から順次出力されることとなる。前述のように、音量補正値で補正された各波形データの表す音声の平均音量表現値はほぼ一定なので、スピーカ１１２から出力される音声の平均音量はほぼ一定となる。

次に、画像の再生処理について簡単に説明する。まず、再生処理部１０１ａは、メモリカードＭＣから読み出したコンテンツ再生情報ファイルに従い、指定された画像データファイルを順次読み出す。

そして、再生処理部１０１ａは、この画像データファイルに含まれる画像データ、または、前述の音声再生処理で読み出した音声データファイルのうち、動画像ファイルに含まれる画像データを、画像処理部１０４に出力する。画像処理部１０４は、入力された画像データに基づき、画像の表示状態、例えば、コントラストやシャープネスなどが、所望の状態となるように調整し、画像信号として液晶パネル駆動部１５０に出力する。

液晶パネル駆動部１５０は、入力された画像信号に基づいて、液晶パネル１５２を駆動する。これにより、液晶パネル１５２では、照明光学系１５１から射出された照明光を、画像情報に応じて変調する。投写光学系１５３は、プロジェクタＰＪ１の筐体の前面に取付けられており、液晶パネル１５２によって変調された投写光を、図示せざるスクリーンに投写する。これにより、スクリーンに画像が投写表示される。

Ａ３．実施例の効果：
以上説明したように、コンテンツ再生情報ファイルに従って複数の音声を再生する場合に、補正値算出部１０１ｂは、予め、各音声の平均音量表現値がほぼ一定となるように、各音声の波形データ毎に音量補正値を算出すると共に、この音量補正値を、該当する音声データファイルに対応付けるようにして、コンテンツ再生情報ファイルに追記する。

従って、再生処理部１０１ａは、このコンテンツ再生情報ファイルに従って、音声データファイルに含まれる波形データを音声処理部１０３に出力する際に、併せて、この音声データファイルに対応する音量補正値を音声処理部１０３に出力することができる。その結果、音声処理部１０３は、入力された波形データを適切な音量補正値で補正することができる。そして、この補正後の波形データの表す音声の平均音量表現値はほぼ一定となるので、スピーカ１１２から出力される音声の平均音量はほぼ一定となる。

従って、ユーザが、最初に再生される音声について、再生音量を所望の音量に調整すれば、プロジェクタＰＪ１は、その音量を保ったまま、順次指定された音声データファイルの表す音声を再生することとなる。その結果、ユーザは、再生される音声が変わるたびに音量を調整しなくてよい。

また、音量補正値と、音声データファイルと、を別々に記録しておくので、オリジナルの音声データファイルを加工することなく、再生される各音声の音量を調整することができる。

また、各波形データの音量補正値の元となる音量表現値は、各音声波形の最大振幅値の他に、この音声波形を構成する各周波数成分の割合に対して、体感音量に基づく各周波数に応じた補正係数（重み付け）を掛け合わせた値に基づいて算出される。そして、かかる音量補正値を用いて各波形データが補正されて音声として再生されるので、聞き取りにくい周波数帯の音量を大きめに、聞き取りやすい周波数帯の音量を小さめに調整するといった、体感音量に基づいた音量調整を行うことができる。

また、補正値算出部１０１ｂは、算出した音量補正値を、音声データファイルに対応付けてコンテンツ再生情報ファイルに追記するようにしている。従って、このコンテンツ再生情報ファイルを参照することで、プレゼンテーションを再度行う場合に音量補正値算出処理を省略することができる。また、音量補正値算出処理を実行できない他のプロジェクタで同じプレゼンテーションを行う場合でも、このようなコンテンツ再生情報ファイルを参照することで、適切な音量補正値で波形データを補正して音声を再生することができる。

Ｂ．変形例：
なお、本発明は、前述の実施例や実施形態に限られるものではなく、その要旨を逸脱しない範囲において、種々の態様において実施することが可能であり、例えば以下のような変形も可能である。

Ｂ１．変形例１：
上述した実施例では、音量補正値算出処理は、プロジェクタＰＪ１において実行されていたが、プロジェクタＰＪ１に代えてパーソナルコンピュータＰＣ１において実行されるようにしてもよい。

具体的には、例えば、コンテンツ再生情報ファイルを生成する際に用いるアプリケーションプログラムに、この音量補正値算出処理部分を実装し、ユーザが、コンテンツ再生情報ファイルを生成した際に、この音量補正値算出処理を実行させるようにしてもよい。

このようにしても、パーソナルコンピュータＰＣ１において、音量補正値が追記されたコンテンツ再生情報ファイルを作成することができる。そして、この場合、プロジェクタは、パーソナルコンピュータＰＣ１で作成されたコンテンツ再生情報ファイルと、音声データファイルと、をメモリカードから読み出し、上述した実施例と同様にして、波形データを音量補正値で補正することにより、各音声の平均音量をほぼ一定にすることができる。

Ｂ２．変形例２：
上述した実施例では、コンテンツ再生情報ファイルの作成は、パーソナルコンピュータＰＣ１において行われるものとしたが、パーソナルコンピュータＰＣ１に代えて、プロジェクタＰＪ１において行われるようにしてもよい。

具体的には、例えば、上述した実施例におけるコンテンツ再生情報を作成する際に用いるアプリケーションプログラムをプロジェクタＰＪ１のフラッシュメモリ１４１に予め記憶させておき、ユーザが、このアプリケーションを起動させて、コンテンツ再生情報を生成するようにすればよい。なお、この場合、音声データファイルは、予めメモリカードに記憶させておき、プロジェクタＰＪ１から読み出すようにすればよい。このようにすることで、パーソナルコンピュータを用いることなく、コンテンツ再生情報ファイルの作成からプレゼンテーションまでを実行することが可能となる。

Ｂ３．変形例３：
上述した実施例では、プロジェクタＰＪ１における音量調整は、音声処理部１０３での音量補正値を用いた波形データの補正による音量調整と、音量調整部１１１でのアンプを用いたアナログ音声信号の増幅による音量調整と、により実現されていたが、本発明は、これら音量調整に限定されるものではない。

例えば、ＤＡＣ１１０において、音量調整部１１１に出力するアナログ音声信号の振幅を、音量調整部１１１の許容振幅内に収めるために、固定倍率で増幅するようにしてもよい。なお、この固定倍率は、システム設計時に定めておくようにすればよい。

Ｂ４．変形例４：
上述した実施例では、コンテンツ再生情報ファイルにおいて、音声データファイルが指定されていると、必ず音声再生処理が実行されて音量調整がなされていたが、音量再生処理を行うか否かをユーザが指定するようにして、音量再生処理を行うと指定された場合にのみ、音声再生処理が実行されるようにしてもよい。

具体的には、例えば、ユーザがコンテンツ再生情報ファイルを作成する際に、音声再生処理を行うか否かを指定するようにして、「音声再生処理を行わない」ように指定した場合には、図３（Ａ）において破線で示すように、コンテンツ再生情報ファイルに「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ＝Ｄｉｓａｂｌｅ」を追記するようにする。一方、「音声再生処理を行う」ように指定した場合には、「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ＝Ｒｅｑｕｅｓｔ」を追記するようにする。そして、再生処理部１０１ａは、コンテンツ再生情報ファイルにおいて、音声データファイルが指定されていることを確認する際に、併せて「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ」の値を確認するようにする。そして、「Ｒｅｑｕｅｓｔ」の場合にのみ、音声再生処理が開始されるようにすればよい。

また、この「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ」を「音声再生処理を行うか否か」を示すだけでなく、「音量補正値算出処理を実行済みであるか否か」を示すのに用いるようにしてもよい。例えば、音声補正値算出処理が実行された後に、「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ」の値を、「Ｒｅｑｕｅｓｔ」から「Ｅｎａｂｌｅ」に書き換えるようにする。

このようにすることで、次回以降にコンテンツ再生処理を行う際に、この「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ」の値を確認して、「Ｅｎａｂｌｅ」であれば、音量補正値算出処理を行うことなく、音量調整が実行可能であることを簡単に判定することができる。なお、音量補正値算出処理を実行した後に、次回以降において、音声再生処理を行わないように指定する場合、「ＶＯＬＵＭＥ＿ＳＭＯＯＴＨＩＮＧ」の値を、「Ｅｎａｂｌｅ」から「Ｄｉｓａｂｌｅ／Ｒｅａｄｙ」に書き換えるようにしてもよい。

Ｂ５．変形例５：
上述した実施例では、音量表現値の基準値として、所定の音声（１０００Ｈｚの正弦波を１００％含み、最大振幅がビット精度の最大振幅の５０％である音声）の音量表現値を用いていたが、本発明は、これに限定されるものではない。

例えば、まず、コンテンツ再生情報ファイルにおいて最初に指定された音声データファイルについての平均音量表現値を、上述した実施例と同様にして求めておき、この求めた平均音量表現値を基準値として用いるようにしてもよい。

この場合、かかる基準値に基づき算出された音量補正値を用いて、２番目以降に指定された各ファイルの波形データを補正すると、それぞれの平均音量表現値は、最初に指定された音声データファイルについての平均音量表現値とほぼ一致することとなる。従って、出力される音声の平均音量をほぼ一定とすることができる。

Ｂ６．変形例６：
上述した実施例において、音量表現値を算出する際に、合成波形の各周波数成分のうち、合成波形に含まれる割合の高い上位３成分について、周波数及び含まれる割合を用いるようにしていたが、上位３成分に限らず、上位４成分や、上位５成分以上について、その周波数及び含まれる割合を用いるようにしても構わない。

Ｂ７．変形例７：
上述した実施例では、パーソナルコンピュータＰＣ１で作成されたコンテンツ再生情報ファイルや音声データファイルの記録媒体として、メモリカードＭＣを用いるようにしていたが、メモリカードに限らず、例えば、磁気ディスクタイプの記録媒体（ＨＤＤやＭＯ等）や、光学ディスクタイプの記録媒体（ＣＤ−Ｒ／ＲＷやＤＶＤ等）を用いるようにしてもよい。なお、この場合、それぞれの記録媒体に対応するドライブをプロジェクタに用意するようにすればよい。

Ｂ８．変形例８：
上述した実施例では、コンテンツ再生情報ファイルと、コンテンツのデータファイルと、は同じメモリカードＭＣに記憶され、プロジェクタＰＪ１は、これらのファイルをメモリカードＭＣから読み出すものとしたが、それぞれのファイルを異なる記録媒体から読み出すようにしてもよい。

具体的には、例えば、プロジェクタがローカルエリアネットワークを介してインターネットに接続されている場合に、コンテンツ再生情報ファイルはメモリカードＭＣから読み出し、コンテンツのデータファイルは、インターネット上に接続されたサーバから読み出すようにしてもよい。このようにすることで、ユーザは、パーソナルコンピュータに記憶されていないコンテンツを用いてプレゼンテーションを行うことが可能となる。

Ｂ９．変形例９：
上述した実施例において、ハードウェアによって実現されていた構成の一部をソフトウェアに置き換えるようにしてもよい。例えば、音声処理部１０３が行っていた波形データの補正を、ソフトウェアによりＣＰＵ１０１で実行するようにしてもよい。

Ｂ１０．変形例１０：
上述した実施例では、補正係数は、等ラウドネス曲線に基づいて定められていたが、等ラウドネス曲線のほかに、音量調整部１１１が有するオーディオアンプの、周波数に対する増倍率の変化や、スピーカ１１２の振動応答性を加味して、補正係数を定めるようにしてもよい。このようにすることで、ユーザの聴覚により即した音量調整を行うことが可能となる。

本発明の一実施例としてのプロジェクタの概要構成を示す機能ブロック図である。図１に示すプロジェクタＰＪ１を備えたプレゼンテーションシステムの概要構成を示す説明図である。コンテンツ再生情報ファイル「ＳＩＮＲ００３．ＣＦＧ」の記載内容及びコンテンツの再生順序を模式的に示す説明図である。本実施例における音声再生処理の手順を示すフローチャートである。補正値算出部１０１ｂにより実行される音量補正値算出処理の手順を示すフローチャートである。図１に示す補正係数テーブルＴｂの内容を示す説明図である。

符号の説明

１００...デジタル再生ＩＣ
１０１...ＣＰＵ
１０１ａ...再生処理部
１０１ｂ...補正値算出部
１０２...メモリ制御部
１０３...音声処理部
１０４...画像処理部
１１０...ＤＡＣ
１１１...音量調整部
１１２...スピーカ
１２０...メモリカードスロット
１２１...メモリカード制御部
１３０...リモコン制御部
１３１...リモコン
１４０...ＤＲＡＭ
１４１...フラッシュメモリ
１５０...液晶パネル駆動部
１５１...照明光学系
１５２...液晶パネル
１５３...投写光学系
２０００...プレゼンテーションシステム
ＭＣ...メモリカード
ＰＣ１...パーソナルコンピュータ
ＰＪ１...プロジェクタ
Ｔｂ...補正係数テーブル

Claims

予め選択された複数の音声データについて、それら音声データの表す各音声を再生する際に用いられる再生情報を生成するための再生情報生成装置であって、
前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する補正量算出部と、
前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する生成部と、
を備える再生情報生成装置。
請求項１に記載の再生情報生成装置において、
前記補正量算出部は、前記補正量を算出する場合に、各音声の音声波形の振幅と、前記音声波形を構成する互いに周波数が異なる正弦波の、前記音声波形に含まれる割合と、前記正弦波の周波数に応じた重み付け値と、に基づき、各音声の平均音量を算出すると共に、前記算出した平均音量に基づき、前記補正量を算出することを特徴とする再生情報生成装置。
予め選択された複数の音声データについて、それら音声データの表す各音声を再生することが可能な音声再生装置であって、
各音声データ毎の補正量及びそれら補正量と各音声データとの対応関係を示す対応関係情報を少なくとも含む再生情報と、前記複数の音声データと、を入力する入力部と、
前記入力された各音声データ毎に、前記入力された再生情報に含まれる前記対応関係情報を参照して、該音声データに対応する前記補正量を導き出すと共に、前記導き出した補正量を用いて該音声データを補正する補正部と、
前記補正された複数の音声データの表す各音声を再生する再生部と、
を備える音声再生装置。
予め選択された複数の音声データについて、それら音声データの表す各音声を再生することが可能な音声再生装置であって、
前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する補正量算出部と、
前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する生成部と、
各音声データ毎に、前記生成された再生情報に含まれる前記対応関係情報を参照して、該音声データに対応する前記補正量を導き出すと共に、前記導き出した補正量を用いて該音声データを補正する補正部と、
前記補正された複数の音声データの表す各音声を再生する再生部と、
を備える音声再生装置。
請求項３または請求項４に記載の音声再生装置を備えるプロジェクタ。
予め選択された複数の音声データについて、それら音声データの表す各音声を再生する際に用いられる再生情報を生成するための再生情報生成方法であって、
前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する第１の工程と、
前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する第２の工程と、
を備える再生情報生成方法。
予め選択された複数の音声データについて、それら音声データの表す各音声を再生するための音声再生方法であって、
各音声データ毎の補正量及びそれら補正量と各音声データとの対応関係を示す対応関係情報を少なくとも含む再生情報と、前記複数の音声データと、を用意する第１の工程と、
各音声データ毎に、前記再生情報に含まれる前記対応関係情報を参照して、該音声データに対応する前記補正量を導き出す第２の工程と、
各音声データ毎に、前記導き出された補正量を用いて該音声データを補正する第３の工程と、
前記補正された複数の音声データの表す各音声を再生する第４の工程と、
を備える音声再生方法。
予め選択された複数の音声データについて、それら音声データの表す各音声を再生する際に用いられる再生情報を生成するためのコンピュータプログラムであって、
前記複数の音声データから、各音声の平均音量が略一定となるような補正量を、各音声データ毎に算出する機能と、
前記算出された各補正量と、それら補正量と各音声データとの対応関係を示す対応関係情報と、を少なくとも含むように、前記再生情報を生成する機能と、
をコンピュータに実現させるためのプログラム。
請求項８に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。