JP7436082B1

JP7436082B1 - 音声処理方法、音声処理装置、およびプログラム

Info

Publication number: JP7436082B1
Application number: JP2023179015A
Authority: JP
Inventors: 健太郎中島
Original assignee: Azstoke
Current assignee: Azstoke
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2024-02-21
Anticipated expiration: 2043-10-17

Abstract

【課題】音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供する。【解決手段】音声処理方法は、第１フォルダに格納された第１音声ファイルに対応する第２音声ファイルを、第２フォルダからファイル名に基づいて検索する検索ステップと、前記第１音声ファイルの音声の波形である第１波形と、前記第２音声ファイルの音声の波形である第２波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、前記第２音声ファイルの音声の音量が前記第１音声ファイルの音声の音量に近づくように前記第２音声ファイルの音声を処理する処理ステップとを有する。前記表示領域は、第１表示領域と該第１表示領域と並列に配置された第２表示領域とを含み、前記表示制御ステップは、前記第１波形を前記第１表示領域内に表示させ、前記第２波形を、前記第１方向に関して前記第１波形と重ならないように前記第２表示領域内に表示させる。【選択図】図６

Description

本発明は、音声処理方法、音声処理装置、およびプログラムに関する。

音声を提供する設備、サービスにおいては、多言語に対応することが求められる場合がある（例えば、特許文献１参照）。また、各種音声が再生されるサービスにおいて各音声素材の再生音量にばらつきがあると聴取者が聞きづらい等の状況が生じうる。そのため、各音声素材の再生音量を一定に揃えることが必要とされる。音量感のばらつきを小さくするための尺度として、ラウドネス値が用いられる（例えば特許文献２参照）。

特開２０１８－０６００４３号公報特開２０２２－０４２８９２号公報

例えば、ゲーム開発の分野において、あるゲームを多言語化する場合、言語ごとに音量が大きく異ならないように信号レベルの調整を行う必要がある。ゲームでは多数の音声コンテンツがインストールされるため、各音声コンテンツについて言語間で音量が異ならないように調整する作業には多大な労力を要していた。

本発明は、音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供することを目的とする。

本発明の一側面によれば、第１フォルダのフォルダパスである第１フォルダパスと、前記第１フォルダとは異なる第２フォルダのフォルダパスである第２フォルダパスとを取得する取得ステップと、前記第１フォルダパスによって特定される前記第１フォルダに格納された第１音声ファイルに対応する第２音声ファイルを、前記第２フォルダパスによって特定される前記第２フォルダからファイル名に基づいて検索する検索ステップと、前記第１音声ファイルの音声の波形である第１波形と、前記第２音声ファイルの音声の波形である第２波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、前記第２音声ファイルの音声の音量が前記第１音声ファイルの音声の音量に近づくように前記第２音声ファイルの音声を処理する処理ステップと、を有し、前記表示領域は、第１表示領域と、時間軸と平行な第１方向と直交する第２方向に前記第１表示領域と並列に配置された第２表示領域とを含み、前記表示制御ステップは、前記第１波形を前記第１表示領域内に表示させる第１ステップと、前記第２波形を、前記第１方向に関して前記第１波形と重ならないように前記第２表示領域内に表示させる第２ステップと、を含む、ことを特徴とする音声処理方法が提供される。

本発明によれば、音声コンテンツの多言語化にかかる労力を軽減するために有利な技術を提供することができる。

実施形態に係る音声処理装置の構成を示すブロック図。音声処理方法のフローチャート。音声処理方法のフローチャート。設定画面を例示する図。音声の波形の表示例を示す図。音声の波形の表示例を示す図。音声の波形の表示例を示す図。

以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態で説明されている特徴の組み合わせの全てが発明に必須のものとは限らない。実施形態で説明されている複数の特徴のうち二つ以上の特徴は任意に組み合わされてもよい。また、同一若しくは同様の構成には同一の参照番号を付し、重複した説明は省略する。

図１には、実施形態に係る音声処理装置Ｃの構成を示すブロック図が示されている。音声処理装置Ｃは、ファイルに記録された音声信号を表示し、音声信号に対して信号レベルの調整等の各種処理を行う装置である。

音声処理装置Ｃは、パーソナルコンピュータやワークステーション等のコンピュータ装置でありうる。音声処理装置Ｃは、装置全体の制御を司るＣＰＵ（中央処理装置）１０１、主記憶装置として機能すると共にＣＰＵ１０１のワークエリアを提供するＲＡＭ１０２、固定的なデータ及びプログラムを記憶するＲＯＭ１０３を備える。また、音声処理装置Ｃは、オーディオインタフェース（Ｉ／Ｆ）１０４を備える。オーディオインタフェース１０４には、マイクロホンＭ、スピーカＳが接続されうる。音声処理装置Ｃには、インタフェース（Ｉ／Ｆ）１０５を介して外部記憶装置１１０が接続される。外部記憶装置１１０は、例えば、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、またはそれらの組み合わせでありうる。なお、外部記憶装置１１０は、二次記憶装置として音声処理装置Ｃの内部に構成されてもよい。ネットワークインタフェース１０６は、ネットワークＮと接続して通信を行う。音声処理装置Ｃは、例えば、ネットワークＮを介して、サーバＡと通信可能に接続されうる。

音声処理装置Ｃには、インタフェース１０７を介して、キーボード、マウス等の入力装置が接続されうる。また、音声処理装置Ｃには、インタフェース１０８を介して、ＣＤ－ＲＯＭドライブ、ＤＶＤドライブ等の外部メディア装置Ｆが接続されうる。さらに、音声処理装置Ｃは、ビデオコントローラ１０９を備える。ビデオコントローラ１０９は、表示装置（ディスプレイ）Ｄによる画像表示を制御する。

音声処理装置Ｃを起動するためのブートプログラムはＲＯＭ１０３に記憶されている。また、図１に示すように、外部記憶装置１１０には、オペレーティングシステム（ＯＳ）１１１をはじめ、オーディオ信号処理を行うための信号処理プログラム１１２、１つ以上の音声ファイル１１３がインストールされうる。音声ファイル１１３は、ネットワークＮを介してサーバＡ等の外部装置から供給されてもよいし、外部メディア装置Ｆに収容されたメディアから供給されてもよい。あるいは、音声ファイル１１３は、マイクロホンＭにより収音された音響から作成されたものであってもよい。

音声ファイル１１３は、音声コンテンツが記録された音声ファイルである。一例において、音声ファイル１１３のファイル形式は、パーソナルコンピュータにおいて一般的に利用されるＷＡＶＥファイル形式でありうる。ＷＡＶＥファイルは、ヘッダと、オーディオ信号のデータとを含みうる。ヘッダは、モノラル／ステレオの種別、サンプリング周波数、量子化ビット数等の情報を含みうる。なお、音声ファイル１１３のファイル形式はＷＡＶＥファイル形式に限定されない。音声ファイル１１３のファイル形式は、ＷＡＶＥファイル形式以外の形式、例えば、ＡＩＦＦ、ＭＰ３、ＡＡＣ等の形式であってもよい。

例えば、ゲーム開発の分野において、あるゲームを多言語化する場合、言語ごとに音量が大きく異ならないように信号レベルの調整を行う必要がある。本実施形態は、各音声コンテンツについて言語間で音量が異ならないように調整する作業を容易にするものである。本実施形態では、第１言語の音声が記録された音声ファイルに対応する第２言語の音声が記録された音声ファイルを自動的に検索し、両音声ファイルの音声の波形をディスプレイＤの表示領域に表示し、音声処理を実行する。第２言語は第１言語とは異なる言語である。第１言語は例えば日本語であり、第２言語は例えば英語でありうる。もちろん第１言語および第２言語は特定の言語に限定されるものではなく任意の言語でありうる。第２言語の音声は、第１言語の音声に対する吹き替え音声である。

図２には、音声処理装置Ｃにおける音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム１１２に含まれ、ＣＰＵ１０１によって実行される。

ステップＳ１１で、ＣＰＵ１０１は、第１言語の音声が記録された１つ以上の音声ファイル（第１音声ファイル）が格納されている第１フォルダのフォルダパス（第１フォルダパス）を取得する。「フォルダパス」とは、ファイルシステム上の特定のフォルダ（ディレクトリ）の所在を示す情報をいう。第１フォルダパスは、図４に示されるような、ディスプレイＤに表示される設定画面４０を介してユーザにより指定される。ユーザは、設定画面４０における第１言語フォルダパス指定欄４１に対して第１フォルダパスを指定することができる。一例において、ユーザが第１言語フォルダパス指定欄４１をマウスクリックすると、フォルダ選択用ダイアログが表示される。ユーザは、そのダイアログを介して第１フォルダパスを指定することができる。

ステップＳ１２で、ＣＰＵ１０１は、第２言語の音声が記録された１つ以上の音声ファイル（第２音声ファイル）が格納されている第２フォルダのフォルダパス（第２フォルダパス）を取得する。第２フォルダパスは、第１フォルダパスの指定と同様、設定画面４０を介してユーザにより指定される。ユーザは、設定画面４０における第２言語フォルダパス指定欄４２に対して第２フォルダパスを指定することができる。一例において、ユーザが第２言語フォルダパス指定欄４２をマウスクリックすると、フォルダ選択用ダイアログが表示される。ユーザは、そのダイアログを介して第２フォルダパスを指定することができる。

ステップＳ２で、ＣＰＵ１０１は、第１フォルダパスによって特定される第１フォルダに格納されている第１音声ファイルに対応する第２音声ファイルを、第２フォルダパスによって特定される第２フォルダから検索する。一例において、検索はファイル名に基づいて行われる。例えば、第１音声ファイルと、当該第１音声ファイルの他言語バージョンである第２音声ファイルとには、同一のファイル名が付与される。この場合、第１フォルダに格納されている第１音声ファイルと同一のファイル名をもつ第２音声ファイルが、第２フォルダから検索されることになる。

ステップＳ３で、ＣＰＵ１０１は、第１音声ファイルの音声の波形である第１波形と、検索により得られた第２音声ファイルの音声の波形である第２波形とを、ディスプレイＤの表示領域に表示させる表示制御を行う。図５には、第１波形および第２波形の表示例が示されている。表示される波形は時間領域波形である。したがって、波形の横軸は時間軸であり、縦軸は信号レベルを示している。ここで、時間軸と平行な方向を第１方向、第１方向と直交する方向を第２方向とする。ディスプレイＤの表示領域Ｒは、第１表示領域Ｒ１と、第２方向に第１表示領域Ｒ１と並列に配置された第２表示領域Ｒ２とを含む。なお、表示領域Ｒ、第１表示領域Ｒ１、第２表示領域Ｒ２の枠線は、表示されてもよいし、表示されなくてもよい。表示制御手段としてのＣＰＵ１０１は、第１音声ファイルの音声の例えば全区間の波形である第１波形Ｗ１を第１表示領域Ｒ１内に表示させる（第１ステップ）。また、ＣＰＵ１０１は、第２音声ファイルの音声の例えば全区間の波形である第２波形Ｗ２を第２表示領域Ｒ２内に表示させる（第２ステップ）。このとき、ＣＰＵ１０１は、第２波形Ｗ２を、第１方向に関して第１波形Ｗ１と重ならないように第２表示領域Ｒ２内に表示させるように、ディスプレイＤへの波形表示を制御する。例えば、第２波形Ｗ２は、図５に示すように、第１波形Ｗ１の終端から所定の時間インターバルＧを設けて第２表示領域Ｒ２内に表示される。所定の時間インターバルＧは、図４の設定画面４０の波形間隔入力欄４３においてユーザにより指定された時間に設定されうる（後述する図３のステップＳ１３を参照）。

ステップＳ４では、ＣＰＵ１０１は、第２音声ファイルの音声の音量が第１音声ファイルの音量に近づくように第２音声ファイルの音声を処理する（音量調整処理）。第１言語の音声の収録環境と、吹き替え音声である第２言語の音声の収録環境は同じではないことが多い。よって一般には、第１言語の音声が記録された第１音声ファイルと、第１音声ファイルとは異なる環境で第２言語の音声が記録された第２音声ファイルは、別々のメディアで提供される。収録環境の違いは、知覚される再生音量の違いとなって現れる。したがって、第１音声ファイルの音声と第２音声ファイルの音声とを同じボリュームで再生した場合、知覚される再生音量に好ましくないばらつきが生じうる。本実施形態における音量調整処理では、第１言語の音声を主音声、第２言語の音声を副音声とし、副音声の音量レベルを主音声の音量レベルに対して正規化することを考える。

本明細書において、「音量」の用語は広義に捉えられるべきである。音量の尺度としては、例えば、ＲＭＳ（Root Mean Square）が使用されうる。あるいは、音量の尺度（指標）としては、人間の聴覚特性が考慮されたラウドネスが使用されうる。ラウドネス値は、例えばLUFS（Loudness Units Full Scale）またはLKFS（Loudness K-Weighted Full Scale）の単位で表される。本実施形態では、音量の尺度としてラウドネスが採用されることが想定されている。例えばゲーム開発の分野においては、音声コンテンツの音量がラウドネス規格等で定義されたLUFSレベル内に収まるように指定されている。ここでは、第１音声ファイルの音声の音量はそのような指定に従って調整がされているものとする。

なお、図４の設定画面４０では、ユーザは、ラウドネス設定欄４５に、ラウドネスの測定方法を指定することができる。ラウドネスの測定方法として、例えば、MaxMomentary、MaxShort-Term、Integratedのうちのいずれかを選択することができる。MaxMomentaryとは、時間軸上を所定時間スライドさせて得られる複数の測定窓（400msec長）のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。MaxShort-Termとは、時間軸上を所定時間スライドさせて得られる複数の測定窓（3sec長）のそれぞれでラウドネス計算を行い、そのうちの最大値をラウドネス値として採用するものをいう。Integratedとは、音源全体のラウドネスを計測するものをいう。図４の例では、MaxMomentaryが選択されている。さらに、上記した特定の測定窓長ではなく、任意の測定窓長さを指定できるようになっていてもよい。また、図４の設定画面４０では、ユーザは、ターゲットラウドネス設定欄４６に、ラウドネス調整の目標（ターゲット）を指定することができる。その選択肢としては、第１言語音声（第１音声ファイルの音声）、ラウドネス規格で定義されたラウドネス値等がありうる。図４の例では、第１言語音声が指定されている。この場合、音量調整処理（ステップＳ４）では、副音声である第２言語の音声のラウドネスが、主音声である第１言語の音声のラウドネスを基準に正規化される。なお、ラウドネス測定の詳細は、例えば特開２０２２－０４２８９２号公報（特許文献２）に記載されている。

以上の処理によれば、第１言語の音声が記録された第１音声ファイルに対応する、第２言語の音声が記録された第２音声ファイルが自動的に検索され、第１音声ファイルの音声の波形である第１波形と第２音声ファイルの音声の波形である第２波形とが表示領域に並列に表示され、第２音声ファイルの音声のラウドネス値が第１音声ファイルの音声のラウドネス値と同等になるように調整される。

第２音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミック・コンプレッションが行われてもよい。音声ファイル間の再生音量のばらつきが大きい場合がある。そのまま音源の音量を調整しない場合には、ある音声の再生音量が小さすぎあるいは大きすぎとなり聞きにくい状況となりうる。そのため、各音源の信号レベルを揃える必要がある。ダイナミックレンジ・コンプレッションは、そのような音声間の信号レベルを一定に揃えるために実施される。ダイナミックレンジ・コンプレッションは、一般に、信号レベルのピークを含む部分を抑圧し、信号レベルの低い部分を増大させる処理を含む。ただし、信号レベルを単に一定にすればよいわけではない。人の発話音の場合、ある程度抑揚がないと圧縮された感じが強くなる。そのため、ダイナミックレンジ・コンプレッションでは、圧縮対象を定めるための信号レベルのスレッショルドが適切に設定される必要がある。

ダイナミックレンジ・コンプレッションは、エンベロープ上に配置された複数の調整ポイントのうちの任意の調整ポイントを動かすことにより、ユーザが手動で行うこともできる（手動コンプ）。しかし、手動コンプを全ての音声に対して行うのには多大な労力を要する。そこで、音声ファイルの全体に対してダイナミックレンジ・コンプレッションを自動で行うことも可能である。ダイナミックレンジ・コンプレッションを自動で行うことを、ここでは「自動コンプ」と称する。

自動コンプは、例えば次のような処理を含みうる。対象の音声ファイルの音声信号は複数のフレームで構成されている。まず、音声信号のエンベロープを取得する。次に、フレーム毎のエンベロープのピーク値を検出し、検出されたフレーム毎のピーク値の平均値（第１平均値）を算出する。次に、第１平均値よりも高いピーク値を検出し、それらの平均値（第２平均値）を算出する。そして、第２平均値よりも高いピーク値のうちの少なくとも一部が抑制されるようにエンベロープを調整する。なお、このような自動コンプの処理方法は一例ですぎず、他の処理方法によって実現されてもよい。

本実施形態では、ユーザは、第２音声ファイルに対して自動コンプを適用するかしないかを指定することができる。図４の設定画面４０には、第２音声ファイルに対する自動コンプの実行を指示する自動コンプ設定欄４４が設けられている。自動コンプ設定欄４４には例えばチェックボックスが用意されていて、そこにチェックを入れることで自動コンプの実行が指定される。図４の例では自動コンプ設定欄４４にチェックが入っている。この場合、ステップＳ４の音量調整処理では、第２音声ファイルの音声のダイナミックレンジ・コンプレッションが実行され、その後、第１音声ファイルの音声のラウドネス値に基づいて、ダイナミックレンジ・コンプレッションが行われた複数の第２音声ファイルの音声のラウドネス値が調整される。

第２表示領域Ｒ２内の第２波形Ｗ２の表示は、ステップＳ４で処理された第２音声ファイルの音声の波形によって更新されうる。

以上では、本発明の概略理解のために説明を簡単にするべく、１つの第１音声ファイルとそれに対応する１つの第２音声ファイルについて説明した。しかし実際には、第１フォルダには複数の第１音声ファイルが格納され、第２フォルダには複数の第２音声ファイルが格納されうる。以下では、複数の第１音声ファイルおよび複数の第２音声ファイルを自動で処理する音声処理方法について説明する。

図３には、音声処理装置Ｃにおける、複数の音声ファイルを処理する音声処理方法のフローチャートが示されている。このフローチャートに対応するプログラムは信号処理プログラム１１２に含まれ、ＣＰＵ１０１によって実行される。図３では、図２のフローチャートと同じ処理ブロックには同じ参照符号が付されている。それらの処理内容については適宜説明を省略または簡略化する。

ステップＳ１１で、ＣＰＵ１０１は、第１言語の音声が記録された１つ以上の音声ファイル（第１音声ファイル）が格納されている第１フォルダのフォルダパス（第１フォルダパス）を取得する。第１フォルダパスは、図４に示されるような、ディスプレイＤに表示される設定画面４０を介してユーザにより指定される。ユーザは、設定画面４０における第１言語フォルダパス指定欄４１に対して第１フォルダパスを指定することができる。

ステップＳ１２で、ＣＰＵ１０１は、第２言語の音声が記録された１つ以上の音声ファイル（第２音声ファイル）が格納されている第２フォルダのフォルダパス（第２フォルダパス）を取得する。第２フォルダパスは、第１フォルダパスの指定と同様、設定画面４０を介してユーザにより指定される。ユーザは、設定画面４０における第２言語フォルダパス指定欄４２に対して第２フォルダパスを指定することができる。

ステップＳ１３で、ＣＰＵ１０１は、図４の設定画面４０の波形間隔入力欄４３においてユーザにより指定された時間に基づいて、第１波形と第２波形との間の時間インターバル（波形間隔）を取得する。

ステップＳ２で、ＣＰＵ１０１は、第１フォルダパスによって特定される第１フォルダに格納されている第１音声ファイルに対応する第２音声ファイルを、第２フォルダパスによって特定される第２フォルダから検索する。図３の例では、ステップＳ２は、ステップＳ２１～Ｓ２３の処理を含む。ステップＳ２１では、ＣＰＵ１０１は、第１フォルダから複数の第１音声ファイルのうちの１つを取得（選択）する。ステップＳ２２で、ＣＰＵ１０１は、取得された第１音声ファイルと同一のファイル名をもつ第２音声ファイルを第２フォルダから検索する。第１音声ファイルと同一のファイル名をもつ第２音声ファイルが第２フォルダに存在する場合、処理はステップＳ３に進む。第１音声ファイルと同一のファイル名をもつ第２音声ファイルが第２フォルダにない場合、処理はステップＳ２３に進む。

ステップＳ３で、ＣＰＵ１０１は、第１音声ファイルの音声の波形である第１波形と、検索により得られた第２音声ファイルの音声の波形である第２波形とを、ディスプレイＤの表示領域に表示させる表示制御を行う。表示制御手段としてのＣＰＵ１０１は、図６に示すように、第１音声ファイルの音声の波形である第１波形Ｗ１１を第１表示領域Ｒ１内に表示させる。また、ＣＰＵ１０１は、第２音声ファイルの音声の波形である第２波形Ｗ２１を第２表示領域Ｒ２内に表示させる。このとき、第２波形Ｗ２１は、第１波形Ｗ１１の終端からＳ１３で取得された波形間隔に従う時間インターバルを設けて第２表示領域Ｒ２内に表示される。

ステップＳ２３で、ＣＰＵ１０１は、第１フォルダ内に他の第１音声ファイルがあるかどうかを判定する。第１フォルダ内に他の第１音声ファイルがある場合、処理はステップＳ２１に戻り、当該他の第１音声ファイルを対象として処理が繰り返される。ＣＰＵ１０１は、図６に示すように、第１音声ファイルの音声の波形である第１波形Ｗ１２を、第１表示領域Ｒ１内に表示させる。このとき、第１波形Ｗ１２は、第２波形Ｗ２１の終端からＳ１３で取得された波形間隔に従う時間インターバルを設けて第１表示領域Ｒ１内に表示される。また、ＣＰＵ１０１は、第２音声ファイルの音声の波形である第２波形Ｗ２２を第２表示領域Ｒ２内に表示させる。このとき、第２波形Ｗ２２は、第１波形Ｗ１２の終端からＳ１３で取得された波形間隔に従う時間インターバルを設けて第２表示領域Ｒ２内に表示される。図６には、第１フォルダ内に第１音声ファイルが３つある場合の表示例が示されている。この場合、第１波形Ｗ１３は、第２波形Ｗ２２の終端からＳ１３で取得された波形間隔に従う時間インターバルを設けて第１表示領域Ｒ１内に表示される。また、第２波形Ｗ２３は、第１波形Ｗ１３の終端からＳ１３で取得された波形間隔に従う時間インターバルを設けて第２表示領域Ｒ２内に表示される。

ステップＳ２３において、第１フォルダ内の全ての第１音声ファイルに対する検索および表示制御が完了したと判定された場合、処理はステップＳ４に進む。ステップＳ４では、ＣＰＵ１０１は、表示された各第２音声ファイルの音声に対して音量調整処理を実行する。

このように、第１フォルダに複数の第１音声ファイルが格納されている場合、当該複数の第１音声ファイルのそれぞれに対して、検索および表示制御が繰り返し実行される。繰り返し実行された表示制御ステップ（Ｓ３）により、第１波形と第２波形が時間軸に沿って交互に並ぶように、複数の第１波形（Ｗ１１、Ｗ１２、Ｗ１３）および複数の第２波形（Ｗ２１、Ｗ２２、Ｗ２３）がそれぞれ第１表示領域Ｒ１内および第２表示領域Ｒ２内に表示される。

これにより、複数の第１音声ファイルに対応する複数の第２音声ファイルが自動的に検索され、それらの音声が並列に表示され、さらにラウドネス調整が行われる。従来、ユーザは、第１音声ファイルに対応する第２音声ファイルをファイルリストから探し出し、見つかった第２音声ファイルを１つずつ手動で指定して表示させる必要があった。そして、ユーザは、表示された第１波形と第２波形とを聴き比べてあるいは見比べて、主観的に音量調整のための操作を行う必要があった。本実施形態によれば、それらが全て自動化されるため、ユーザの作業負担を大幅に軽減することができる。

第２音声ファイルの音声に対してラウドネス調整が行われる前に、オプションとして、ダイナミック・コンプレッションが行われてもよい。図４の自動コンプ設定欄４４にチェックが入っている場合、ステップＳ４の音量調整処理では、複数の第２音声ファイルの音声のダイナミックレンジ・コンプレッション（自動コンプ）が実行され、その後、複数の第１音声ファイルの音声のラウドネス値に基づいて、ダイナミックレンジ・コンプレッションが行われた複数の第２音声ファイルの音声のラウドネス値が調整される。

図７には、図６の変形例が示されている。図７において、表示領域Ｒは、第２方向に第１表示領域Ｒ１および第２表示領域Ｒ２と並列に配置された第３表示領域Ｒ３を更に含む。図７に示す例では、第３表示領域Ｒ３は、第２表示領域Ｒ２の下方に配置されている。ＣＰＵ１０１は、複数の第２音声ファイルの音声に対してダイナミックレンジ・コンプレッション（自動コンプ）およびラウドネス値の調整が行われた後に新たに書き出して得られた複数の第３波形Ｗ３１、Ｗ３２、Ｗ３３を、第１方向に関して複数の第２波形Ｗ２１、Ｗ２２、Ｗ２３と重なるように第３表示領域Ｒ３内に表示させる（第３ステップ）。また、図７に示すように、複数の第２波形Ｗ２１、Ｗ２２、Ｗ２３のそれぞれには、信号レベルを調整するために自動コンプにおいて得られたエンベロープ上に離散的に配置された複数の調整ポイントＰが表示されていてもよい。ユーザは、手動で、例えば、任意の調整ポイントをマウスでドラッグすることにより、当該位置の信号レベルを調整することができる。手動で信号レベルが調整された場合、および／または、ラウドネス調整が再度行われた場合には、その結果が更に反映されるように第３表示領域Ｒ３の波形が更新されうる。なお、上述した波形の表示態様は一例にすぎないものであって、その他の表示態様が採用されてもよい。

本発明は、上述の実施形態で説明した音声処理方法の各ステップを実行させるためのプログラムを、コンピュータに実行させることによっても実施されうる。

発明は上記の実施形態に制限されるものではなく、発明の要旨の範囲内で、種々の変形・変更が可能である。

Ａ：サーバ、Ｃ：音声処理装置、Ｄ：ディスプレイ、Ｋ：入力装置、１０１：ＣＰＵ、１１２：信号処理プログラム

Claims

第１フォルダのフォルダパスである第１フォルダパスと、前記第１フォルダとは異なる第２フォルダのフォルダパスである第２フォルダパスとを取得する取得ステップと、
前記第１フォルダパスによって特定される前記第１フォルダに格納された第１音声ファイルに対応する第２音声ファイルを、前記第２フォルダパスによって特定される前記第２フォルダからファイル名に基づいて検索する検索ステップと、
前記第１音声ファイルの音声の波形である第１波形と、前記第２音声ファイルの音声の波形である第２波形とを、ディスプレイの表示領域に表示させる表示制御ステップと、
前記第２音声ファイルの音声の音量が前記第１音声ファイルの音声の音量に近づくように前記第２音声ファイルの音声を処理する処理ステップと、
を有し、
前記表示領域は、第１表示領域と、時間軸と平行な第１方向と直交する第２方向に前記第１表示領域と並列に配置された第２表示領域とを含み、
前記表示制御ステップは、
前記第１波形を前記第１表示領域内に表示させる第１ステップと、
前記第２波形を、前記第１方向に関して前記第１波形と重ならないように前記第２表示領域内に表示させる第２ステップと、
を含む、ことを特徴とする音声処理方法。
前記第２ステップは、前記第２波形を、前記第１波形の終端から所定の時間インターバルを設けて前記第２表示領域内に表示させるステップを含む、ことを特徴とする請求項１に記載の音声処理方法。
前記所定の時間インターバルを、ユーザにより指定された時間に設定する設定ステップを更に有する、ことを特徴とする請求項２に記載の音声処理方法。
前記音量の尺度はラウドネス値である、ことを特徴とする請求項１に記載の音声処理方法。
前記処理ステップは、
前記第２音声ファイルの音声のダイナミックレンジ・コンプレッションを行うステップと、
前記第１音声ファイルの音声のラウドネス値に基づいて、前記ダイナミックレンジ・コンプレッションが行われた前記第２音声ファイルの音声のラウドネス値を調整するステップと、
を含む、ことを特徴とする請求項４に記載の音声処理方法。
前記第２表示領域内の前記第２波形の表示を、前記処理ステップで処理された前記第２音声ファイルの音声の波形によって更新するステップを更に有することを特徴とする請求項１に記載の音声処理方法。
前記第１音声ファイルは、第１言語の音声が記録された音声ファイルであり、
前記第２音声ファイルは、前記第１言語とは異なる第２言語の音声が記録された音声ファイルであり、
前記第２言語の音声は、前記第１言語の音声に対する吹き替え音声である、
ことを特徴とする請求項１に記載の音声処理方法。
前記第１フォルダに複数の第１音声ファイルが格納されている場合、前記複数の第１音声ファイルのそれぞれに対して、前記検索ステップおよび前記表示制御ステップが繰り返し実行され、
前記繰り返し実行された表示制御ステップにより、第１波形と第２波形が時間軸に沿って交互に並ぶように、複数の第１波形および複数の第２波形がそれぞれ前記第１表示領域内および前記第２表示領域内に表示される、
ことを特徴とする請求項１に記載の音声処理方法。
前記検索ステップおよび前記表示制御ステップが繰り返し実行された後、前記複数の第１音声ファイルに対応する複数の第２音声ファイルに対して前記処理ステップが実行される、ことを特徴とする請求項８に記載の音声処理方法。
前記処理ステップは、
前記複数の第２音声ファイルの音声のダイナミックレンジ・コンプレッションを行うステップと、
前記複数の第１音声ファイルの音声のラウドネス値に基づいて、前記ダイナミックレンジ・コンプレッションが行われた前記複数の第２音声ファイルの音声のラウドネス値を調整するステップと、
を含む、ことを特徴とする請求項９に記載の音声処理方法。
前記表示領域は、前記第２方向に前記第１表示領域および前記第２表示領域と並列に配置された第３表示領域を更に含み、
前記表示制御ステップは、前記ダイナミックレンジ・コンプレッションおよび前記ラウドネス値の調整が行われた結果が反映された音声の波形である第３波形を、前記第１方向に関して前記第２波形と重なるように前記第３表示領域内に表示させる第３ステップを更に含む、
ことを特徴とする請求項１０に記載の音声処理方法。
前記第３表示領域内の前記第３波形の表示を、更にラウドネス値の調整が行われた前記複数の第２音声ファイルの音声の波形によって更新するステップを更に有することを特徴とする請求項１１に記載の音声処理方法。
第１フォルダのフォルダパスである第１フォルダパスと、前記第１フォルダとは異なる第２フォルダのフォルダパスである第２フォルダパスとを取得する取得手段と、
前記第１フォルダパスによって特定される前記第１フォルダに格納された第１音声ファイルに対応する第２音声ファイルを、前記第２フォルダパスによって特定される前記第２フォルダからファイル名に基づいて検索する検索手段と、
前記第１音声ファイルの音声の波形である第１波形と、前記第２音声ファイルの音声の波形である第２波形とを、ディスプレイの表示領域に表示させる表示制御手段と、
前記第２音声ファイルの音声の音量が前記第１音声ファイルの音声の音量に近づくように前記第２音声ファイルの音声を処理する処理手段と、
を有し、
前記表示領域は、第１表示領域と、時間軸と平行な第１方向と直交する第２方向に前記第１表示領域と並列に配置された第２表示領域とを含み、
前記表示制御手段は、前記第１波形を前記第１表示領域内に表示させ、前記第２波形を、前記第１方向に関して前記第１波形と重ならないように前記第２表示領域内に表示させるように、前記ディスプレイへの波形表示を制御する、
ことを特徴とする音声処理装置。
コンピュータに、請求項１から１２のいずれか１項に記載の音声処理方法における各ステップを実行させる、ことを特徴とするプログラム。