JP2005234718A - 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム - Google Patents

音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム Download PDF

Info

Publication number
JP2005234718A
JP2005234718A JP2004040554A JP2004040554A JP2005234718A JP 2005234718 A JP2005234718 A JP 2005234718A JP 2004040554 A JP2004040554 A JP 2004040554A JP 2004040554 A JP2004040554 A JP 2004040554A JP 2005234718 A JP2005234718 A JP 2005234718A
Authority
JP
Japan
Prior art keywords
time length
speech
unit data
singing
provider
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004040554A
Other languages
English (en)
Inventor
Shigeki Fujii
茂樹 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2004040554A priority Critical patent/JP2005234718A/ja
Publication of JP2005234718A publication Critical patent/JP2005234718A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 特定の人間の肉声から得た音声素片群を低廉な料金で利用させると共に、音声素片の提供者が適正な対価を取得できるような音声素片の取引システムを実現すること。
【解決手段】 歌手の肉声を解析して得た音声素片データ群を歌手毎に纏めたライブラリを音声素片データ提供装置3に蓄積しておく。端末装置4が、ライブラリを利用して合成歌唱音を作成する際は、音声素片データ提供装置3と端末装置4とのデータ授受に要した利用時間長と、ライブラリを利用して作成された合成歌唱音の歌唱時間長とに応じて課金額が算出される。
【選択図】 図1

Description

本発明は、音声素片データの取引方法に関する。
従来より、人間の肉声を解析してその音声素片の特徴を示すパラメータを取得し、それらのパラメータを繋ぎ合わせることで、その人間の肉声を模した音声を再現する技術が開発されてきた。そして、この種の技術を用いたビジネスを支援するような発明も提案されている。例えば、特許文献1は、対価の取得を条件として自らの肉声を提供する者とその肉声から得られた音声素片の利用者との取引を支援するシステムが開示されている。同文献によると、このシステムは、音素の提供者が発声した肉声から音声素片の特徴を示すパラメータを取得してそれらをデータベース化する。その一方で、肉声を模した音声データの取得を希望する者から文章などのテキストデータを取得すると、その文章を構成する各音声素片と対応するパラメータをデータベースから読出し、それらを繋ぎ合わせて生成した音声データを提供する。そして、このシステムは、音声素片の利用者から料金を徴収し、その提供者へ送金するようになっている。特許文献2にも同様のシステムが開示されている。
一方、音声素片のパラメータを単に繋ぎ合わせるのではなく、ピッチやテンポ等のコントロールされた音声素片として繋ぎ合わせ、それら一連の音声素片列を基にして歌唱音声を合成する技術も提案されている。例えば、特許文献3には、SMS(spectral modeling synthesis)と呼ばれる技術を利用した好適な歌唱音声の合成を実現する装置が開示されている。同文献によると、この装置は、歌詞の構成要素となる音声素片の特徴を示すパラメータを、調和成分と非調和成分の組としてそれぞれ記憶している。この装置の動作の概要を示すと以下のようになる。まず、テンポやピッチなどの指定された歌詞の入力があると、その歌詞を音声素片に変換し、変換した一連の音声素片に対応する調和成分と非調和成分の組を順に読み出す。続いて、読み出した調和成分と非調和成分を目的のピッチやテンポに合うようにそれぞれ調整する。そして、調整を施した調和成分と非調和成分とを合成して得た成分を基に歌唱音声を得る。この装置によれば、音声素片の提供者が実際に歌唱しているのと遜色ない極めてクリアな歌唱音声の合成を実現できる。
特開2003−140672 特開2003−58180 特開2002−202790
先に述べたような歌唱合成技術の向上を背景として、今後は、特定の人間の肉声から抽出した音声素片データ群を1つのパッケージ商品として流通させるビジネスモデルが確立するであろうと予測されている。このビジネスモデルにおいては、サービス利用者が、特許文献3に示されたような高精度の歌唱合成機能を搭載したプログラムを自らのコンピュータに実装する。サービス提供者は、アーティストなど特定の人間の肉声を解析して得た各種音声素片データを集めた、「ライブラリ」と呼ばれる商品を販売する。サービス利用者は、所望のライブラリを購入して自らのコンピュータに読み込ませ、そのライブラリに含まれる各音声素片データを自らが作った旋律と歌詞に従って繋ぎ合わせることで歌唱音声を合成する。著名なアーティストの音声素片データを集めたライブラリを充実させていくことにより、作詞、作曲活動を支援する強力な音楽ツールとして広く普及することが期待されている。
一方で、かかるビジネスモデルの普及、促進のためには以下に示す2つの問題の解決が不可避であると指摘されている。
1つ目は、ライブラリの利用に対する料金の設定の問題である。サービス提供者から様々な声質のライブラリが提供されるようになると、サービス利用者は、自らが制作する楽曲の旋律や歌詞に最もマッチするような声質のライブラリをその都度選んで歌唱音声を合成したいと考えるようになる。このため、サービス利用者がより多くのライブラリを手軽に利用できるような環境を早期に構築することが望まれる。ところが、使用される頻度があまり高くないライブラリも使用される頻度の極めて高いライブラリと同じ対価を支払って購入しなければならないとすれば、多種多様なライブラリの利用を希望するサービス利用者に割高感を感じさせることになりかねない。従って、ライブラリの価値と使用頻度とが適正に考慮された公平な料金で利用されるような取引の仕組みを構築しなければならない。
2つ目は、音声素片データの提供者に対する適正な対価の支払いの問題である。CD(コンパクトディスク)の例を見るまでもなく、新規な音楽ツールを普及させるためには、魅力あるコンテンツの充実は不可欠の条件となっている。従って、音声素片データの提供者(特に著名な歌手)が自らの音声素片を提供するインセンティブを損なわないような取引の仕組みを構築しなければならない。
本発明は、このような問題を解決すべく案出されたものであり、音声素片を用いて歌唱音声を合成する者に対し、特定の人間の肉声から得た音声素片群を低廉な料金で利用させると共に、音声素片の提供者が適正な対価を取得できるような音声素片の取引システムを実現することを目的とする。
本発明の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、 音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置とから成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して得た合成歌唱音の歌唱時間長を特定し、特定した歌唱時間長を前記音声素片データ提供装置へ送信する歌唱時間長送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した歌唱時間長を前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程とを有する。
本発明の別の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置とから成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、前記音声素片データ提供装置が、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定過程と、前記音声素片データ提供装置が、前記特定した歌唱時間長を前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程とを有する。
本発明の別の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額の総計額を記憶する課金額記憶手段を備えた課金額管理装置と、音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置と から成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して得た合成歌唱音の歌唱時間長を特定し、特定した歌唱時間長を前記音声素片データ提供装置へ送信する歌唱時間長送信過程と、前記音声素片データ提供装置が、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定過程と、前記音声素片データ提供装置が、前記端末装置から受信した歌唱時間長と前記特定した利用時間長とを前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記利用時間長に応じた第1の課金額と前記歌唱時間長に応じた第2の課金額とをそれぞれ算出する算出過程と、前記課金額管理装置が、前記算出した第1の課金額と第2の課金額とを合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算過程とを有する。
本発明の別の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額の総計額を記憶する課金額記憶手段を備えた課金額管理装置と、提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置とから成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、 前記音声素片データ提供装置が、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定過程と、前記音声素片データ提供装置が、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定過程と、前記音声素片データ提供装置が、前記特定した歌唱時間長と利用時間長とを前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記利用時間長に応じた第1の課金額と前記歌唱時間長に応じた第2の課金額とをそれぞれ算出する算出過程と、前記課金額管理装置が、前記算出した第1の課金額と第2の課金額とを合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算過程とを有する。
本発明の別の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置とから成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して合成歌唱音を取得すると、当該合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定し、特定した時間長を前記音声素片データ提供装置へ送信する時間長送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した時間長を前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程とを有する。
本発明の別の好適な態様である取引方法は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置とから成る歌唱合成システムによる音声素片データの取引方法であって、前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、前記端末装置が、前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定処理と、前記音声素片データ提供装置が、前記特定した時間長を前記課金額管理装置へ送信する利用量通知過程と、前記課金額管理装置が、前記時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程とを有する。
本発明の別の好適な態様である音声素片データ提供装置は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、提供者識別子を受信する識別子受信手段と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ送信する音声素片データ送信手段と、前記送信した音声素片データを接続することで取得された合成歌唱音の歌唱時間長を前記発信元から受信する歌唱時間長受信手段と、前記受信した歌唱時間長を外部の課金額管理装置に宛てて送信する利用量通知手段とを備える。
この態様において、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定手段を更に備え、前記利用量通知手段は、前記利用時間長特定手段が特定した利用時間長と前記歌唱時間長受信手段が受信した歌唱時間長とを外部の課金額管理装置に宛てて送信するようにしてもよい。
本発明の別の好適な態様である音声素片データ提供装置は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を受信する受信手段と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得手段と、前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ送信する歌唱音送信手段と、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定手段と、前記特定した歌唱時間長を外部の課金額管理装置に宛てて送信する利用量通知手段とを備える。
この態様において、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定手段を更に備え、前記利用量通知手段は、前記利用時間長特定手段が特定した利用時間長と前記歌唱時間長特定手段が特定した歌唱時間長とを外部の課金額管理装置に宛てて送信するようにしてもよい。
本発明の別の好適な態様である音声素片データ提供装置は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、提供者識別子を受信する識別子受信手段と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ送信する音声素片データ送信手段と、前記送信した音声素片データを接続して合成歌唱音を取得するに至るまでの当該接続に要した時間長を前記発信元から受信する時間長受信手段と、前記受信した時間長を外部の課金額管理装置に宛てて送信する利用量通知手段とを備える。
本発明の別の好適な態様である音声素片データ提供装置は、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を受信する受信手段と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得手段と、前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ送信する歌唱音送信手段と、前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定手段と、前記特定した時間長を外部の課金額管理装置に宛てて送信する利用量通知手段とを備える。
本発明の別の好適な態様である課金額管理装置は、肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を受信する歌唱時間長受信手段と、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段とを備える。
本発明の好適な態様である課金額管理装置は、肉声を解析して得られた音声素片データ群の提供に対する課金額の総計額を記憶する課金額記憶手段と、前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を受信する歌唱時間長受信手段と、前記合成歌唱音の取得の際における、前記音声素片データの提供元とその提供先とのデータ授受に要した時間長である利用時間長を受信する利用時間長受信手段と、前記利用時間長に応じた第1の課金額を算出すると共に、前記歌唱時間長に応じた第2の課金額を算出する算出手段と、前記算出した第1の課金額と第2の課金額を合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算手段とを備える。
本発明の別の好適な態様である課金額管理装置は、肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、前記音声素片データの提供先において当該音声素片データを接続して合成歌唱音を取得した際の当該接続に要した時間長を受信する時間長受信手段と、前記受信した時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段とを備える。
本発明の別の好適な態様であるプログラムは、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、情報の通信手段とを備えたコンピュータ装置に、提供者識別子を前記通信手段を介して受信する識別子受信処理と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ前記通信手段を介して送信する音声素片データ送信処理と、前記送信した音声素片データを接続することで取得された合成歌唱音の歌唱時間長を前記発信元から前記通信手段を介して受信する歌唱時間長受信処理と、前記受信した歌唱時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理とを実行させる。
本発明の別の好適な態様であるプログラムは、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、情報の通信手段とを備えたコンピュータ装置に、提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を前記通信手段を介して受信する受信処理と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得処理と、 前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ前記通信手段を介して送信する歌唱音送信処理と、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定処理と、前記特定した歌唱時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理とを実行させる。
本発明の別の好適な態様であるプログラムは、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、情報の通信手段とを備えたコンピュータ装置に、提供者識別子を前記通信手段を介して受信する識別子受信処理と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ前記通信手段を介して送信する音声素片データ送信処理と、前記送信した音声素片データを接続して合成歌唱音を取得するに至るまでの当該接続に要した時間長を前記発信元から前記通信手段を介して受信する時間長受信処理と、前記受信した時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理とを実行させる。
本発明の別の好適な態様であるプログラムは、音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、情報の通信手段とを備えたコンピュータ装置に、提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を前記通信手段を介して受信する受信処理と、前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得処理と、 前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ前記通信手段を介して送信する歌唱音送信処理と、前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定処理と、前記特定した時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理とを実行させる。
本発明の別の好適な態様であるプログラムは、肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、情報の通信手段とを備えたコンピュータ装置に、前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を前記通信手段を介して受信する歌唱時間長受信処理と、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段とを実行させる。
本発明の別の好適な態様であるプログラムは、肉声を解析して得られた音声素片データ群の提供に対する課金額の総計額を記憶する課金額記憶手段と、情報の通信手段とを備えたコンピュータ装置に、前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を前記通信手段を介して受信する歌唱時間長受信処理と、前記合成歌唱音の取得の際における、前記音声素片データの提供元とその提供先とのデータ授受に要した時間長である利用時間長を前記通信手段を介して受信する利用時間長受信処理と、前記利用時間長に応じた第1の課金額を算出すると共に、前記歌唱時間長に応じた第2の課金額を算出する算出処理と、前記算出した第1の課金額と第2の課金額を合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算処理と実行させる。
本発明の別の好適な態様であるプログラムは、肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、情報の通信手段とを備えたコンピュータ装置に、前記音声素片データの提供先において当該音声素片データを接続して合成歌唱音を取得した際の当該接続に要した時間長を前記通信手段を介して受信する時間長受信処理と、前記受信した時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出処理とを実行させる。
本発明によると、音声素片データ提供装置が、音声素片の提供者の肉声を解析して得た音声素片データを、提供者毎に纏められた音声素片データ群毎に端末装置の利用に供する。そして、利用された音声素片データ群の量に応じて課金額が算出されるようになっている。従って、各端末装置の利用者に対して割高感を与えることなく音声素片データを利用させることができる。また、音声素片の各提供者に対して支払うべき報酬額を、明瞭且つ効率的に確定させることもできる。
(第1実施形態)
本発明の第1実施形態にかかる歌唱合成システムについて説明する。
まず、以降の説明において用いる主要な用語を定義しておく。「音声素片」の語は、歌詞の構成要素を意味し、「a」、「i」といったような単一の音素と、「a_i」、「a_p」といったような音素連鎖の両者を含むものとして用いる。そして、歌手の肉声から各音声素片の波形の特徴を定量的に表す音声素片データを各々抽出し、それらの素片データ群を歌手毎に纏めたものを「ライブラリ」と呼ぶ。また、歌手の肉声を解析してライブラリを作成する事業者を「ライブラリ開発者」と呼び、ライブラリのネットワーク経由での取引を管理する事業者を「システム運営者」と呼ぶ。更に、システム運営者から配信されるライブラリを利用して楽曲創作活動を行なうクリエータを「サービス利用者」と呼ぶ。
図1は、本実施形態にかかる歌唱合成システムの全体構成を示すブロック図である。同図に示すように、このシステムは、素片データ配信装置1と、課金額管理装置2と、素片データ提供装置3と、端末装置4とからなる。素片データ配信装置1と課金額管理装置2は、システム運営者がサーバとして利用するコンピュータである。一方、素片データ提供装置3と端末装置4は、共にサービス利用者のスタジオ等に設置され、LAN(Local Area Network)により接続される。なお、説明の便宜上、図1では、素片データ提供装置3を1つしか記載していないが、この素片データ提供装置3は、サービス利用者のスタジオの数に応じて複数存在することを想定している。また、複数のサービス利用者が同一のスタジオで創作活動を行なう場合は、各々がそれぞれ使用する複数の端末装置4を一台の素片データ提供装置3とLANにより接続するようにしてもよい。
素片データ配信装置1は、CPU、ROM、RAM、ハードディスク、通信インターフェース(I/F)などを備えている。システム運営者は、ライブラリ開発者によって新規な歌手のライブラリが作成されるたびに、そのライブラリをライブラリ開発者から取得し、自らの素片データ配信装置1から各素片データ提供装置3へ配信する。
ここで、ライブラリ開発者により行なわれるライブラリの作成手順を説明しておく。
図2は、ライブラリの作成手順を示すフローチャートである。
まず、音声素片の提供者である歌手の肉声を、スタジオにて録音する(S110)。即ち、歌詞を構成するであろう音声素片を順に発声してもらい、その時間波形を記録媒体に記録していく。ここで、一般的に、日本語の場合は歌唱音声の合成に必要な音声素片(単一の音素及び音素連鎖)の種類は400乃至500種あるとされており、英語の場合、約2500種あるとされている。従って、音声素片を発音する作業がそれらすべての音声素片について繰り返されることになる。なお、望ましくは、母音を含む音声素片については、3つないし4つの異なるピッチで発声してもらい、それぞれの時間波形を個別に記録するようにするとよい。
必要な音声素片の録音が終了すると、今度は、その時間波形を所定間隔のフレームに分け、フレーム毎に高速フーリエ変換をかけて周波数分析する(S120)。
そして、その結果得られた周波数スペクトルの特徴量を抽出する(S130)。ここで、本実施形態では、周波数スペクトルの特徴量を、各フレーム毎の調和成分と非調和成分の組として抽出する。調和成分とは、パワースペクトルが最大値を取る周波数、及びその周波数の整数倍の周波数を中心とする所定の幅を持った周波数領域のスペクトル成分である。一方、非調和成分とは、全周波数領域のスペクトル成分から調和成分を減じた残りのスペクトル成分である。
次に、抽出した周波数スペクトルの特徴量を、音声素片の長さと対応する区間毎にそれぞれ切り出す(S140)。つまり、母音のみからなる音素、母音から子音に遷移する音素連鎖、子音から母音に遷移する音素連鎖、母音から別の母音に遷移する音素連鎖と各々対応する区間毎に調和成分と非調和成分の組を切り出す。
最後に、区間毎に切り出された調和成分と非調和成分の各組を、インデックスとなるべき音声素片名とピッチを対応付けた上で記憶する(S150)。なお、インデックスとなるピッチの値は、フレーム毎に求めたピッチを各区間毎に平均することによって求める。
以上の作業を、必要なすべての音声素片について実行することにより、一人の歌手の肉声の特徴を反映したライブラリが完成する。
図3は、ある歌手の肉声から得られたライブラリのデータ構造を示す図である。この図に示すように、音声素片データの各々は、調和成分と非調和成分の組を内包しており、音声素片名とピッチがインデックスとして付与されている。そして、同図を参照すると、このライブラリでは、「a」の音声素片に対して、130Hz、150Hz、200Hz、220Hzの4つの異なるピッチの音声素片データが用意されていることが分かる。同様に、「a」と「i」を連ねた音声素片に対して、140Hz、180Hz、300Hzの3つの異なるピッチの音声素片データが用意されていることが分かる。
以上説明したような手順に従って一人の歌手の肉声からライブラリが生成されると、そのライブラリはライブラリ開発者からシステム運営者へ直ちに引き渡される。ライブラリを取得すると、システム運営者は、そのライブラリの歌手識別子と単位課金額を決定する。歌手識別子は、音声素片の提供者である歌手を一意に識別する情報であり、例えばその歌手の氏名である。単位課金額とは、ライブラリを利用することで作成された合成歌唱音の1分の歌唱時間長あたりの課金額である。この単位課金額は、肉声を提供した歌手の価値などを考慮して各ライブラリ毎に個別に決定されることになる。例えば、極めて著名な歌手の肉声からライブラリを作成した場合、その歌手に支払うべき報酬も高額となるため、設定される単位課金額も高くなる。
システム運営者は、歌手識別子と単位課金額とを決定した後、ライブラリと歌手識別子のセットを素片データ配信装置1から素片データ提供装置3へ配信すると共に、単位課金額と歌手識別子のセットを課金額管理装置2へ送信する。
図4は、課金額管理装置2のハードウェア構成を示すブロック図である。同図に示すように、この装置は、演算部として機能するCPU20、IPL(Initial Program Loader)などを記憶したROM21、ワークメモリとして利用されるRAM22、タイマ割込み処理(インタラプト処理)における割込み時間や各種時間を計時するタイマ23、通信インターフェース(I/F)24、ハードディスク25などをデータバスにより接続してなる。
ハードディスク25は、図示しないOSのほか、本実施形態に特有の動作をCPU20に実行させる課金額管理プログラム25a、課金額管理データベース25b、歌手別報酬額管理データベース25cを記憶している。課金額管理装置2は、素片データ提供装置3から受信する情報を基にこれらのデータベースを更新することで、各サービス利用者に請求されるべき請求額(課金額の総計額)や、音声素片を提供した歌手、ライブラリ開発者、システム運営者の各々に分配されるべき報酬額をそれぞれ管理する。
図5は、課金額管理データベース25bのデータ構造図である。このデータベースを構成する1つのレコードは、「サービス利用者」と「課金額」と「内訳」の3つのフィールドを有しており、「内訳」のフィールドは、「ベース課金」と「追加課金」の2つのフィールドに分かれている。「サービス利用者」のフィールドには、サービス利用者の利用者識別子を記憶する。「課金額」のフィールドには、そのサービス利用者に請求されるべき、課金額の総計額を記憶する。「ベース課金」と「追加課金」のフィールドには、課金額の総額の内訳となるベース課金額と追加課金額とをそれぞれ記憶する。ベース課金額は、利用時間長に応じて算出される基本となる課金額である。利用時間長とは、素片データ提供装置3と端末装置4との間のデータ授受に要した時間長、即ち、端末装置4が素片データ提供装置3にアクセスして接続状態を確立してからその接続状態が解除されるまでの時間長である。ベース課金額は、利用されるライブラリの数や種別に関わらず、1分の利用時間長あたりの課金額を10円として算出される。一方、追加課金額は、ライブラリを利用して作成された合成歌唱音の歌唱時間長に応じて算出される、追加の課金額であり、各ライブラリ毎に設定された単位課金額を基に算出される。ベース課金額と追加課金額の具体的な算出手順については後述する。
図6は、歌手別報酬額管理データベース25cのデータ構造図である。このデータベースを構成する1つのレコードは、「歌手」と「単位課金額」と「報酬」の3つのフィールドを有している。
ライブラリ開発者が新規なライブラリを作成し、その歌手識別子と単位課金額のセットが、システム運営者によって素片データ配信装置1から課金額管理装置2に送信されると、このデータベースには新たなレコードが設けられ、設けられたレコードの「歌手」のフィールドと「単位課金額」のフィールドに、歌手識別子と単位課金額が記憶される。また、「報酬」のフィールドには、各歌手にそれぞれ支払われるべき報酬額を記憶する。この報酬額の算出手順については後述する。
図1の説明に戻る。
素片データ提供装置3は、素片データ配信装置1から順次配信される新たなライブラリをデータベースに蓄積し、自らの管理の下にそれらのライブラリを端末装置4の利用に供する。その一方で、サービス利用者によってライブラリが利用される都度、その利用量を定量的に示す利用量通知情報を課金額管理装置2へ送信する。
図7は、素片データ提供装置3のハードウェア構成を示すブロック図である。同図に示すように、この装置は、CPU30、ROM31、RAM32、タイマ33、通信インターフェース(I/F)34、ハードディスク35などをデータバスにより接続してなる。CPU30、ROM31、RAM32、タイマ33、通信インターフェース34の機能は課金額管理装置2の同部と同様である。
ハードディスク35は、図示しないOSのほか、本実施形態に特有の動作をCPU30に実行させる素片データ提供プログラム35a、ライブラリデータベース35bを記憶している。
図8は、ライブラリデータベースのデータ構造図である。このデータベースを構成する1つのレコードは、「ライブラリ」と「歌手」の2つのフィールドを有している。そして、新規に作成されたライブラリと歌手識別子のセットが素片データ配信装置1から配信されると、このデータベースに新たなレコードが設けられ、設けられたレコードの各フィールドにライブラリと歌手識別子が記憶されることになる。
図9は、端末装置4のハードウェア構成を示すブロック図である。同図に示すように、この装置は、CPU40、ROM41、RAM42、タイマ43、通信インターフェース(I/F)44、ハードディスク45のほか、MIDIインタフェース(I/F)46、操作回路47、表示回路48、音源回路49などをデータバスにより接続してなる。CPU40、ROM41、RAM42、タイマ43、通信インターフェース44の機能は課金額管理装置2の同部と同様である、
MIDIインタフェース(I/F)46は、電子楽器50との間でMIDI信号のやりとりを行うためのインターフェースである。操作回路47は、各種入力を行なうためのマウス、キーボード等を含んで構成される操作子51と接続される。表示回路48は、CPU40の指令を基にディスプレイ52を駆動させることによって、各種情報を表示させる。音源回路49は、複数のチャンネルで楽音信号の同時発生が可能となっており、データバスを経由して与えられた、時間領域の音声波形データ(以下、「時間波形データ」と呼ぶ)を基に音声信号を発生する。発生された音声信号は、アンプやスピーカなどを含むサウンドシステム53から音声として発音される。
ハードディスク45は、図示しないOSのほか、歌唱合成プログラム45aを記憶している。CPU40がこのプログラムをOS上で逐次実行することで、音声合成エンジンとしての機能が付与される。
次に、本実施形態の動作について説明する。
本実施形態の動作は、歌唱楽曲入力処理と、歌唱音合成処理と、課金額算出処理とに大別できる。
図10は、歌唱楽曲入力処理を示すフローチャートである。
この処理は、端末装置4を使用するサービス利用者により歌唱合成プログラム45aの起動が指示されると開始される。
歌唱合成プログラム45aの起動が指示されされると、CPU40は、楽譜入力画面をディスプレイ52に表示させる(S210)。サービス利用者は、この画面を介して歌唱楽曲の旋律と歌詞とを入力する。
ここで、図11を参照し、楽譜入力画面の構成及びその入力手順について説明しておく。
図11は、楽譜入力画面を示す図である。同図に示すように、この画面のウィンドウは、ノートデータをピアノロール形式で表示するイベント表示領域54aを備えている。イベント表示領域54aの右側には、同領域の表示画面を上下にスクロールさせるためのスクロールバー54bが設けられている。また、イベント表示領域54aの下側には、同領域の表示画面を左右にスクロールさせるためのスクロールバー54cが設けられている。更にそのスクロールバー54cの下には、「サーバアクセス」と記したボタン54dと、「終了」と記したボタン54eとが表示される。但し、歌唱合成プログラム45aが起動された当初は、「終了」のボタン54eはクリックできないようにロックされている。
イベント表示領域54aの左側にはピアノの鍵盤を模した画像(ピッチを示す座標軸)54fが表示され、イベント表示領域54aの上側には楽曲の先頭からの小節位置を示す小節表示54gが表示される。54hはピアノロール表示領域であり、鍵盤を模した画像54fで示されるピッチと小節表示54gで示される時間の交差位置に、ノートデータを示す横長の矩形(以下、「ノートバー54i」と呼ぶ)を表示している。ノートバー54iの左端位置は発音開始タイミングを示し、ノートバー54iの長さは発音継続時間長を示し、ノートバー54iの右端位置は発音終了タイミングを示す。
サービス利用者は、所望のピッチ及び時間位置に対応した表示画面上の位置にマウスポインタを移動してクリックし、発音開始位置を特定する。そして、ドラッグ操作により発音開始位置から発音終了位置に至るノートバー54iをピアノロール表示領域54hに形成し、その後、マウスをドロップする。
上記ドラッグアンドドロップによってノートバー54iを形成したサービス利用者は、そのノートバー54iに割り当てる歌詞の入力操作を行う。歌詞の入力操作は、形成したノートバー54iにマウスポインタを移動しマウスを右クリックすることによって図示しない歌詞入力欄をそのノートバー54iの上部に表示させ、その入力欄へ、歌詞を示す平仮名文字をキーボードにより入力することで行なわれる。
図11の例は、「はあるがきた」という1フレーズの旋律を表すノートバー54iがすべて入力され、それらのノートバー54iに割り当てられる歌詞の最初の4つの平仮名文字(はあるが)が入力された状態を示すものである。なお、この図では、1つの小節区間には1つのノートバー54iのみが形成されており、1つのパートの歌唱内容のみが入力された状態を示すものとなっているが、同一の小節区間にピッチを異にする複数のノートバー54iを形成することで、複数のパートの歌唱内容を入力することもできる。そのような入力を行なった楽譜を基に後述の歌唱音合成処理を行った場合、複数の合成歌唱音がハーモニーを奏でる、いわゆるコーラス歌唱が実現する。
以上説明したような操作によって、楽曲を演奏するのに必要なノートバー54iと歌詞とをすべて入力したサービス利用者は、同画面下段の「サーバアクセス」と記したボタン54dをクリックする。
ボタンがクリックされると、端末装置4のCPU40は、イベント表示領域54aに形成された各ノートバー54iの属性(ピッチ、発音開始タイミング、発音継続時間長、発音終了タイミング)とそれら各ノートバー54iに割り振られた平仮名文字の組を小節表示54gが示す時間の経過に従って表した楽譜情報を、RAM42に記憶する(S220)。なお、複数のパートの歌唱内容が入力されているときは、それらのパート毎に楽譜情報を記憶する。
続いて、CPU40は、ライブラリ問合要求を素片データ提供装置3に送信する(S230)。
ライブラリ問合要求を受信した素片データ提供装置3のCPU30は、ライブラリデータベース35bに蓄積しているライブラリを示す歌手識別子を端末装置4に送信する(S240)。即ち、ライブラリデータベース35bの各レコードの「歌手」のフィールドに記憶されている歌手識別子をすべて読み出して送信する。
端末装置4のCPU40は、素片データ提供装置3から受信した歌手識別子を基にライブラリ選択画面を生成し、楽譜入力画面の近傍に表示させる(S250)。このライブラリ選択画面には、「ご利用になる歌手のライブラリを選択してください。複数のパートの楽譜が入力されているときは、それらを別々の歌手の声で歌唱させることもできます。」といったメッセージと、受信した歌手識別子と対応する歌手名を列挙したリストとが表示される。サービス利用者は、楽譜入力画面で入力した楽譜を歌唱させたい歌手の歌手名にマウスポインタを移動させてクリックする。複数のパートの楽譜を入力していたときは、この作業を各パート毎に行なう。
端末装置4のCPU40は、選択されたライブラリを示す一又は複数の歌手識別子を素片データ提供装置3に送信する(S260)。
素片データ提供装置3のCPU30は、受信した歌手識別子と対応付けてライブラリデータベース35bに記憶されているライブラリをRAM32に読み出す(S270)。そして、音声素片データを提供する準備が整ったことを示す準備完了通知情報を端末装置4に送信する(S280)。
準備完了通知情報を受信した端末装置4は、楽譜入力画面の下段に表示されている「サーバアクセス」と記したボタン54dを、「歌唱開始」と記したボタンに遷移させる(S290)。
以上で、歌唱楽曲入力処理が終了する。
図12は、歌唱音合成処理を示すフローチャートである。なお、以下の説明は、1つのパートの歌唱内容を示す楽譜が入力されていたケースを想定して行なう。
この処理は、「歌唱開始」と遷移されたボタンがクリックされると開始される。
ボタンがクリックされると、端末装置4のCPU40は、ステップ220で記憶しておいた楽譜情報により表される一連の平仮名文字を、音声素片列に変換する(S310)。例えば、「はあるが」という歌詞を示す一連の平仮名文字の部分であれば、「h」、「h_a」、「a」、「a_r」「r」、「r_u」、「u」、「u_g」、「g」、「g_a」、「a」という音声素片列に変換する。
続いて、CPU40は、変換した各音声素片と対応する音声素片データの提供を求める素片提供要求を、音声素片列を構成している順番に従って素片データ提供装置3へ送信する(S320)。これらの素片提供要求の各々は、音声素片の音声素片名を示す情報を内包している。
素片データ提供装置3のCPU30は、各素片提供要求に含まれる音声素片名と対応する音声素片データを、RAM32に読み出しておいたライブラリから抽出し、端末装置4へ送信する(S330)。なお、母音を含む音声素片の場合、ピッチを異にする数種の音声素片データの組が1つのライブラリに含まれうることは上述したが、そのような音声素片の素片提供要求を受信したときは、対応する数種の音声素片データの組を抽出して送信する。
音声素片データを受信した端末装置4のCPU40は、その音声素片データによって表されるピッチが所望のピッチと一致するように調整を施す(S340)。即ち、受信した1又は複数の音声素片データの中に、ノートバー54iの属性として表されたピッチそのものをインデックスとしている音声素片データが含まれていないときは、そのピッチに比較的近いピッチをインデックスとしている音声素片データを特定し、特定した音声素片データに含まれる調和成分に所定の補間処理を施す。また、補間後の調和成分とうまく溶け合うように非調和成分の側に適宜処理を加えてもよい。
続いて、CPU40は、音声素片データによって表される時間長が所望の発音継続時間長と一致するように更なる調整を施す(S350)。即ち、音声素片データによって表される時間長がノートバー54iの属性として表された発音継続時間長よりも長いときは、音声素片データに含まれるフレームの一部を間引くことによってその時間長を短くする一方で、発音継続時間長より短いときは、フレームを重複させることによってその時間長を長くする。
CPU40は、調整が施された音声素片データを繋ぎ合わせることにより、合成歌唱音の時間波形データを取得する(S360)。具体的には、調整が施された調和成分と非調和成分を発音順に従ってそれぞれ接続し、接続された両成分を足し合わせて逆フーリエ変換をかけることによって、時間波形データ取得する。
この時間波形データは音源回路49に供給され、合成歌唱音としてサウンドシステム53から発音されることになる。
合成歌唱音が発音されている間、楽譜入力画面は画面全体がロックされ、同画面への入力操作は一切受け付けない状態になる。合成歌唱音の発音が終了すると、ロックが解除され、イベント表示領域54aに設けられたノートバー54iの位置や長さの修正、また、各ノートバー54iに割り当てられた平仮名文字の修正といった各種操作を行なうことができるようになる。更に、この状態では、画面下段の「終了」のボタン54eにかかっていたロックも解除され、このボタン54eをクリックすることもできるようになる。
合成歌唱音の発音の終了後、サービス利用者が、楽譜の内容を修正して「歌唱開始」のボタンをクリックすると、その修正を反映した楽譜情報がRAM42に記憶された後、ステップ310乃至ステップ360の処理が再び実行される。そして、修正を反映した楽譜情報を基に取得された合成歌唱音がサウンドシステム53から発音される。一方、作業を終了する場合、「終了」のボタン54eをクリックする。
「終了」のボタン54eがクリックされると、CPU40は、ステップ360で取得した時間波形データを基に、発音される合成歌唱音の歌唱時間長を特定する(S370)。
続いて、CPU40は、特定した歌唱時間長を示すデータを素片データ提供装置3に送信した後、素片データ提供装置3との接続状態を解除する(S380)。
以上で、歌唱音合成処理が終了する。
図13は、課金額算出処理を示すフローチャートである。
この処理は、素片データ提供装置3が、歌唱時間長を示すデータを端末装置4から受信すると開始される。
素片データ提供装置3のCPU30は、歌唱時間長を示すデータをRAM32に記憶する(S410)。
続いて、CPU30は、自機と端末装置4とのデータ授受に要した利用時間長、即ち、ステップ230でライブラリ問合要求が送信されてから接続状態が解除されるまでの時間長を特定する(S420)。
CPU30は、RAM32に記憶しておいた歌唱時間長と、ステップ420で特定した利用時間長と、利用された1又は複数のライブラリを示す歌手識別子と、ライブラリを利用したサービス利用者の利用者識別子とを含む利用量通知情報を課金額管理装置2へ送信する(S430)。
利用量通知情報を受信した課金額管理装置2のCPU20は、その利用量通知情報に含まれる利用者識別子と対応付けられたレコードを課金額管理データベース25bから特定する(S440)。
続いて、CPU20は、利用量通知情報に含まれる利用時間長に応じたベース課金額を算出する(S450)。具体的には、1分の利用時間長あたりの課金額として予め設定されている10(円/分)と、利用量通知情報に含まれていた利用時間長との積を算出することによって、ベース課金額を求める。
CPU20は、算出したベース課金額を基に、ステップ440で特定したレコードの「ベース課金」のフィールドの記憶内容を更新する(S460)。即ち、「ベース課金」のフィードに記憶されている記憶内容を、それまでそのフィールドに記憶されていた金額とステップ450で算出したベース課金額の合計額に書き換える。
CPU20は、利用量通知情報に含まれる一又は複数の歌手識別子と対応付けられたレコードを歌手別報酬額管理データベース25cから特定し、特定したレコードの「単位課金額」のフィールドに記憶されている単位課金額を読み出す(S470)。
CPU20は、読み出した単位課金額と利用量通知情報とに応じたライブラリ毎の追加課金額を算出する(S480)。具体的には、歌手別報酬額管理データベース25cから読み出した各単位課金額と、利用量通知情報に含まれる歌唱時間長との積をそれぞれ算出することによって、ライブラリ毎の追加課金額を求める。
CPU20は、算出した追加課金額を基に、ステップ440で特定したレコードの「追加課金」のフィールドの記憶内容を更新する(S490)。即ち、「追加課金」のフィードに記憶されている記憶内容を、それまでそのフィールドに記憶されていた金額とステップ480で算出した追加課金額(複数のライブラリについて算出されたときはそれらの合計額)との合計額に書き換える。
次に、CPU20は、ステップ450で算出したベース課金額とステップ480で算出した追加課金額を合算する(S500)。
CPU20は、合算により求めた金額を基に、ステップ440で特定したレコードの「課金額」のフィールドの記憶内容を更新する(S510)。
CPU20は、利用量通知情報に含まれる1または複数の歌手識別子と対応付けられたレコードを歌手別報酬額管理データベース25cから特定する(S520)。そして、特定したレコードの「報酬」のフィールドの記憶内容を更新する(S530)。具体的には、ステップ480でライブラリ毎に算出した金額を、「報酬」のフィールドにそれまで記憶されていた金額に加算する。
以上で、課金額算出処理が終了する。
課金額管理データベース25bにてサービス利用者毎に管理されている課金額は、所定の期間(例えば一ヶ月)毎に清算される。即ち、システム運営者は、課金額管理データベース25bの「課金額」のフィールドに記憶されている金額を請求額とした請求書を各サービス利用者に発行し、請求書を受領した各サービス利用者から請求相当額の入金を受ける。そして、入金額を、各歌手、ライブラリ開発者、システム運営者に分配する。
この分配は以下のように行なわれる。まず、各サービス利用者に請求された課金額の総計額のうち、ベース課金額に相当する額を、ライブラリ開発者とシステム運営者に「1:1」の割合で分配する。つまり、ベース課金額の50パーセントに相当する部分はライブラリ開発者の報酬として支払われ、残りの50パーセントはシステム運営者の報酬として支払われることになる。一方、請求された課金額の総計額のうち追加課金額に相当する額は、歌手に分配する。この際、各歌手毎に個別に支払われる金額は、歌手別報酬額管理データベース25cの「報酬」のフィールドに記憶されている金額を基にそれぞれ特定する。
以上説明した本実施形態によると、素片データ提供装置3は、音声素片データ群を歌手毎に纏めたライブラリを端末装置4の利用に供する際の課金額を、素片データ提供装置3と端末装置4とのデータ授受に要した利用時間長に応じて算出されるベース課金額と、音声素片データを繋ぎ合わせて取得される合成歌唱音の歌唱時間長に応じて算出される追加課金額とを合算することによって求める。そして、利用時間長及び歌唱時間長が長くなるに従って課金額が高額になるような課金額算出の仕組みをとっている。このため、利用料金の割高感や不公平感を排した魅力ある音声合成サービスをサービス利用者に提供することができる。
また、追加課金額は、各ライブラリ毎に設定された単位課金額と歌唱時間長の積を求めることで算出されるようになっており、サービス利用者に請求される課金額のうち追加課金額に相当する額は、利用されたライブラリの音声素片を提供している歌手にそれぞれ分配される。そして、ライブラリの音声素片を提供した歌手が、自らのライブラリが多く利用されるほど、高額の報酬を得られるような分配の仕組みをとっている。このため、音声素片の需要が極めて大きい著名歌手などからの音声素片の積極的な提供を促すことができる。
(第2実施形態)
次に、本発明の第2実施形態を説明する。第1実施形態では、端末装置4のハードディスク45に歌唱合成プログラム45aを記憶しており、端末装置4のCPU40がこのプログラムを逐次実行することによって、歌唱合成エンジンとしての機能を担っていた。
これに対し、本実施形態では、素片データ提供装置3の側に歌唱合成エンジンとしての機能を搭載させている。即ち、本実施形態では、素片データ提供装置3が、端末装置4から楽譜情報を受取り、この楽譜情報に応じて音声素片データを繋ぎ合わせることによって得た合成歌唱音の時間波形データを端末装置4へ引き渡す構成となっている。
本実施形態にかかる歌唱合成システムを構成する各ノードのハードウェア構成は、素片データ提供装置3のハードディスク35が歌唱合成プログラムを記憶している点と、端末装置4のハードディスク45が歌唱合成プログラム45aの代わりに楽譜作成プログラムを記憶している点を除いて第1実施形態と同様である。
この楽譜作成プログラムは、端末装置4のディスプレイ52に、図11に示したような楽譜入力画面を表示し、この画面のイベント表示領域54aに入力されたイベントバーの属性と平仮名文字の組を時間の経過に従って表した楽譜情報を素片データ提供装置3へ送信する機能を司る。
次に、本実施形態の動作を説明する。
本実施形態は、歌唱音合成処理の手順が第1実施形態と異なる。
図14は、本実施形態における歌唱音合成処理を示すフローチャートである。
この処理は、図10のステップ290にて、楽譜入力画面の「サーバアクセス」と記したボタン54dが「歌唱開始」と記したボタンに遷移された後、「歌唱開始」と記したボタンがクリックされると開始される。
ボタンがクリックされると、端末装置4のCPU40は、ステップ220でRAM42に記憶しておいた楽譜情報を、素片データ提供装置3へ送信する(S291)。
素片データ提供装置3のCPU30は、受信した楽譜情報をRAM32に記憶する(S301)。続いて、楽譜情報に含まれる一連の平仮名文字を、音声素片列に変換する(S311)。更に、変換した各音声素片と対応する音声素片データを、ステップ270でRAM32に読み出しておいたライブラリから抽出する(S331)。
次に、CPU30は、抽出した音声素片データによって表されるピッチが所望のピッチと一致するように調整を施す(S341)。続いて、音声素片データによって表される時間長が所望の発音継続時間長と一致するように更なる調整を施す(S351)。
CPU30は、調整が施された音声素片データを繋ぎ合わせることにより、合成歌唱音の時間波形データを取得し、取得した時間波形データを端末装置4へ送信する(S361)。端末装置4のCPU40が、素片データ提供装置3から受信した時間波形データを音源回路49に供給すると、合成歌唱音がサウンドシステム53から発音されることになる。
合成歌唱音の発音の終了後、サービス利用者が、楽譜の内容を修正して「歌唱開始」のボタンをクリックすると、その修正を反映した楽譜情報がRAM42に記憶された後、ステップ291乃至ステップ361の処理が再び実行される。そして、修正を反映した楽譜情報から生成された合成歌唱音がサウンドシステム53から発音される。一方、作業を終了する場合、「終了」のボタン54eをクリックする。
「終了」のボタンがクリックされると、端末装置4のCPU40は、ライブラリの利用を終了することを示す終了通知情報を素片データ提供装置3に送信した後、素片データ提供装置3との接続状態を解除する(S381)。
終了通知情報を受信した素片データ提供装置3のCPU30は、ステップ361で取得した時間波形データを基に、発音される合成歌唱音の歌唱時間長を特定する(S391)。
歌唱時間長を特定したCPU30は、図13に示したステップ410に進み、その歌唱時間長を示すデータをRAM32に記憶した後、ステップ420以降の処理を実行する。
以上説明した実施形態によると、素片データ提供装置3は、歌唱楽曲の旋律と歌詞を表す楽譜情報を端末装置4から受信し、自らのハードディスク35のライブラリから抽出した音声素片データをこの楽譜情報の内容に応じて接続することで得た時間波形データを端末装置4に送信する。つまり、端末装置4には、音声素片データを接続することで取得された時間波形データのみを提供し、接続前の音声素片データそのものは提供されない。このため、音声素片データが端末装置4から不当に流通し、歌手や、システム開発者、システム運営者に支払われるべき報酬額を十分に回収できなくなるといった事態を未然に防止することができる。
(第3実施形態)
上記実施形態において、課金額の総額の内訳のひとつとなる追加課金額は、合成歌唱音の歌唱時間長に応じて算出されるようになっていた。これに対し本実施形態は、合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を基に追加課金額を算出する。
本実施形態にかかる歌唱合成システムを構成する各ノードのハードウェア構成は、第1実施形態と同様である。
次に、本実施形態の動作を説明する。本実施形態の動作の内容は、歌唱音合成処理を除いて第1実施形態と同様である。本実施形態における歌唱音合成処理では、図12に示したステップ360に進んで合成歌唱音の時間波形データを取得した端末装置4のCPU40が、合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長、即ち、楽譜入力画面の「歌唱開始」と遷移されたボタンがクリックされてからステップ360で合成歌唱音の時間波形データが取得されるまでの時間長を特定し、特定した時間長をRAM42に記憶する。なお、歌唱音合成処理では、サービス利用者が、楽譜の内容を修正して「歌唱開始」のボタンをクリックすると、ステップ310乃至ステップ360の処理が繰り返されることになるが、この場合、ステップ360を実行するたびに、修正後の楽譜を反映した合成歌唱音を取得するための音声素片データの接続に要した時間長を新たに特定し、RAM42に記憶されている時間長に加算する。
そして、本実施形態では、図12のステップ370に相当する処理は行われず、続くステップ380では、端末装置4のCPU40が、RAM42に蓄積しておいた時間長を素片データ提供装置3へ送信する。
素片データ提供装置3は、端末装置4から受信した時間長に応じた追加課金額を算出する。
以上説明した本実施形態では、ライブラリを利用して最終的に取得された合成歌唱音の歌唱時間長に応じて追加課金額を算出するのではなく、合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を基に追加課金額を算出する。従って、例えば、楽譜入力画面に50小節分の歌唱曲の楽譜を創作してその合成歌唱音を別の録音機に録音した後、楽譜の内容を10小節分に縮減してから楽譜入力画面の「終了」のボタン54eをクリックすることで、課金額を不当に少なく算出させるような悪意の行為にも対抗することができ、最終的な成果物としての合成歌唱音を得るまでの試行錯誤の内容を適正に反映させた課金体系を構築することができる。
(他の実施形態)
本願に係る発明は、種々の変形実施が可能である。
例えば、上記実施形態では、課金額の総計額に含まれるベース課金額に相当する額を、ライブラリ開発者とシステム運営者とで「1:1」に分配するようになっていたが、これと異なる割合で分配してもよい。また、ベース課金額を算出する基準となる一分の利用時間長あたりの課金額は、10(円/分)と設定していたが、これと異なる金額を基準として算出してもよい。
第1実施形態と第2実施形態において、サービス利用者に対する請求額として計上される課金額の総額は、利用時間長に応じて算出されるベース課金額と、歌唱時間長に応じて算出される追加課金額とを合算することで求めていたが、ベース課金額を請求額に計上せず、追加課金額のみを請求額として請求するようにしてもよい。例えば、第1実施形態をこのような変形例で構成した場合、図13のステップ420、ステップ450、ステップ460、及びステップ500に相当する処理は行われず、ステップ510では、ステップ480で算出した追加課金額が、ステップ440で特定したレコードの「課金額」のフィールドにそのまま加算されることになる。このような変形例によれば、自らの端末装置4から素片データ提供装置3にアクセスしたものの、ライブラリを1つも利用することなく接続状態を解除するようなサービス利用者に対しても課金が行なわれてしまうといった不都合を排除することができる。なお、第3実施形態をこのような変形例で構成し、合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長に応じて算出した追加課金額をそのまま請求額として請求してももちろんよい。
上記実施形態では、ライブラリを作成する際、母音を含む音声素片について複数の異なるピッチで発声してもらい、それぞれの時間波形を記録してそれらを個別に解析することにより、同一の音声素片名についてピッチを異にする数種の音声素片データを用意していた。これに対し、複数の異なるダイナミクスやテンポで発音してもらうことで、1つの音声素片名に対して用意されるべき音声素片データのバリエーションを更に細分化されたものとしてもよい。
また、ビブラートなど特定の音楽的表情を付けて歌唱する場合における波形の時間的変化を表す音楽的表情データをライブラリに含め、それらの音楽的表情データについても上記実施形態に示したような課金額の支払いを条件として提供してもよい。
第1実施形態では、端末装置4が、素片データ提供装置3に素片提供要求を送信し、素片データ提供装置3は、RAM32に読み出しているライブラリからこの素片提供要求によって要求された音声素片データのみを抽出して送信するようになっていた。これに対し、素片データ提供装置3が、RAM32に読み出したライブラリに含まれるすべての音声素片データ群を端末装置4に送信し、端末装置4が、受信した音声素片データ群から必要な音声素片データを適宜抽出するようにしてもよい。
第2実施形態では、音声素片データの不当な流通を防止すべく、素片データ提供装置3の側に歌唱合成エンジンとしての機能を搭載させていたが、素片データ提供装置3自体はサービス利用者のスタジオにて端末装置4とLANにより接続されるものであった。これに対し、図15に示すように、素片データ提供装置3を、素片データ配信装置1、課金額管理装置2と共にシステム運営者の管理下におくことで、サービス利用者側のネットワーク環境と完全に切り離してもよい。このような変形例とすることで、音声素片データの不当な流通をより確実に防止することができる。
図1や図15に示した全体構成図では、素片データ配信装置1、課金額管理装置2、素片データ提供装置3を別筐体としていたが、これらの機能を単一のコンピュータ装置に搭載させてもよい。
上記各実施形態において、素片データ配信装置1、課金額管理装置2、素片データ提供装置3、端末装置4の各ノードの間で流通するデータは、すべて所定の暗号化処理を施した上で送受信されるようにしてもよい。
第3実施形態では、楽譜入力画面の「歌唱開始」と遷移されたボタンがクリックされてから合成歌唱音の時間波形データが取得されるまでの時間長を基に追加課金額を算出していたが、端末装置4にて歌唱合成プログラム45aの起動が指示されてから、同プログラムの終了が指示されるまでの時間長を特定し、この時間長に応じて追加課金額を算出してもよい。このような変形例によっても、最終的な成果物としての合成歌唱音を得るまでの試行錯誤の内容を適正に反映させた課金体系を構築することができる。
歌唱合成システムの全体構成図である。 ライブラリの作成手順を示すフローチャートである。 ある歌手の肉声から得られたライブラリのデータ構造を示す図である。 課金額管理装置のハードウェア構成を示すブロック図である。 課金額管理データベースのデータ構造図である。 歌手別報酬額管理データベースのデータ構造図である。 素片データ提供装置のハードウェア構成を示すブロック図である。 ライブラリデータベースのデータ構造図である。 端末装置のハードウェア構成を示すブロック図である。 歌唱楽曲入力処理を示すフローチャートである。 楽譜入力画面を示す図である。 歌唱音合成処理を示すフローチャートである。 課金額算出処理を示すフローチャートである。 歌唱音合成処理を示すフローチャートである。 歌唱合成システムの全体構成図である(変形例)。
符号の説明
1…素片データ配信装置,2…課金額管理装置,3…素片データ提供装置,4…端末装置,20、30、40…CPU,21、31、41…ROM,22、32、42…RAM,23、33、43…タイマ,25、35、45…ハードディスク,24、34、44…通信インターフェース,47…操作回路,48…表示回路,49…音源回路,50…電子楽器,51…操作子,52…ディスプレイ,53…サウンドシステム

Claims (22)

  1. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、
    音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、
    前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して得た合成歌唱音の歌唱時間長を特定し、特定した歌唱時間長を前記音声素片データ提供装置へ送信する歌唱時間長送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した歌唱時間長を前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程と、
    を有する取引方法。
  2. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、
    提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、
    前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、
    前記音声素片データ提供装置が、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定過程と、
    前記音声素片データ提供装置が、前記特定した歌唱時間長を前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程と
    を有する取引方法。
  3. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額の総計額を記憶する課金額記憶手段を備えた課金額管理装置と、
    音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、
    前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して得た合成歌唱音の歌唱時間長を特定し、特定した歌唱時間長を前記音声素片データ提供装置へ送信する歌唱時間長送信過程と、
    前記音声素片データ提供装置が、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した歌唱時間長と前記特定した利用時間長とを前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記利用時間長に応じた第1の課金額と前記歌唱時間長に応じた第2の課金額とをそれぞれ算出する算出過程と、
    前記課金額管理装置が、前記算出した第1の課金額と第2の課金額とを合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算過程と
    を有する取引方法。
  4. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額の総計額を記憶する課金額記憶手段を備えた課金額管理装置と、
    提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、
    前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、
    前記音声素片データ提供装置が、前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定過程と、
    前記音声素片データ提供装置が、前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定過程と、
    前記音声素片データ提供装置が、前記特定した歌唱時間長と利用時間長とを前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記利用時間長に応じた第1の課金額と前記歌唱時間長に応じた第2の課金額とをそれぞれ算出する算出過程と、
    前記課金額管理装置が、前記算出した第1の課金額と第2の課金額とを合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算過程と
    を有する取引方法。
  5. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、
    音声素片データを接続して合成歌唱音を取得する手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、提供者識別子を前記音声素片データ提供装置へ送信する識別子送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けて記憶している音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記端末装置へ送信する音声素片データ送信過程と、
    前記端末装置が、前記音声素片データ提供装置から受信した音声素片データを接続して合成歌唱音を取得すると、当該合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定し、特定した時間長を前記音声素片データ提供装置へ送信する時間長送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した時間長を前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程と
    を有する取引方法。
  6. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶している素片データ記憶手段を備えると共に、楽曲の旋律と歌詞を表す楽譜情報を基に音声素片データを接続して合成歌唱音を取得する手段を備えた音声素片データ提供装置と、
    音声素片データの利用量に応じた課金額を記憶する課金額記憶手段を備えた課金額管理装置と、
    提供者識別子と楽譜情報とを入力する入力手段を備えた端末装置と
    から成る歌唱合成システムによる音声素片データの取引方法であって、
    前記端末装置が、前記入力手段を介して入力された提供者識別子と楽譜情報とを前記音声素片データ提供装置へ送信する歌唱内容送信過程と、
    前記音声素片データ提供装置が、前記端末装置から受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得過程と、
    前記音声素片データ提供装置が、前記取得した合成歌唱音を前記端末装置へ送信する歌唱音送信過程と、
    前記端末装置が、前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定処理と、
    前記音声素片データ提供装置が、前記特定した時間長を前記課金額管理装置へ送信する利用量通知過程と、
    前記課金額管理装置が、前記時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出過程と
    を有する取引方法。
  7. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    提供者識別子を受信する識別子受信手段と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ送信する音声素片データ送信手段と、
    前記送信した音声素片データを接続することで取得された合成歌唱音の歌唱時間長を前記発信元から受信する歌唱時間長受信手段と、
    前記受信した歌唱時間長を外部の課金額管理装置に宛てて送信する利用量通知手段と
    を備えた音声素片データ提供装置。
  8. 請求項7記載の音声素片データ提供装置において、
    前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定手段を更に備え、
    前記利用量通知手段は、
    前記利用時間長特定手段が特定した利用時間長と前記歌唱時間長受信手段が受信した歌唱時間長とを外部の課金額管理装置に宛てて送信する
    音声素片データ提供装置。
  9. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を受信する受信手段と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得手段と、
    前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ送信する歌唱音送信手段と、
    前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定手段と、
    前記特定した歌唱時間長を外部の課金額管理装置に宛てて送信する利用量通知手段と
    を備えた音声素片データ提供装置。
  10. 請求項9記載の音声素片データ提供装置において、
    前記端末装置と自機とのデータ授受に要した時間長である利用時間長を特定する利用時間長特定手段を更に備え、
    前記利用量通知手段は、
    前記利用時間長特定手段が特定した利用時間長と前記歌唱時間長特定手段が特定した歌唱時間長とを外部の課金額管理装置に宛てて送信する
    音声素片データ提供装置。
  11. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    提供者識別子を受信する識別子受信手段と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ送信する音声素片データ送信手段と、
    前記送信した音声素片データを接続して合成歌唱音を取得するに至るまでの当該接続に要した時間長を前記発信元から受信する時間長受信手段と、
    前記受信した時間長を外部の課金額管理装置に宛てて送信する利用量通知手段と
    を備えた音声素片データ提供装置。
  12. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を受信する受信手段と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得手段と、
    前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ送信する歌唱音送信手段と、
    前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定手段と、
    前記特定した時間長を外部の課金額管理装置に宛てて送信する利用量通知手段と
    を備えた音声素片データ提供装置。
  13. 肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、
    前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を受信する歌唱時間長受信手段と、
    前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段と
    を備えた課金額管理装置。
  14. 肉声を解析して得られた音声素片データ群の提供に対する課金額の総計額を記憶する課金額記憶手段と、
    前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を受信する歌唱時間長受信手段と、
    前記合成歌唱音の取得の際における、前記音声素片データの提供元とその提供先とのデータ授受に要した時間長である利用時間長を受信する利用時間長受信手段と、
    前記利用時間長に応じた第1の課金額を算出すると共に、前記歌唱時間長に応じた第2の課金額を算出する算出手段と、
    前記算出した第1の課金額と第2の課金額を合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算手段と
    を備えた課金額管理装置。
  15. 肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、
    前記音声素片データの提供先において当該音声素片データを接続して合成歌唱音を取得した際の当該接続に要した時間長を受信する時間長受信手段と、
    前記受信した時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段と
    を備える課金額管理装置。
  16. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    提供者識別子を前記通信手段を介して受信する識別子受信処理と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ前記通信手段を介して送信する音声素片データ送信処理と、
    前記送信した音声素片データを接続することで取得された合成歌唱音の歌唱時間長を前記発信元から前記通信手段を介して受信する歌唱時間長受信処理と、
    前記受信した歌唱時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理と
    を実行させるプログラム。
  17. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を前記通信手段を介して受信する受信処理と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得処理と、
    前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ前記通信手段を介して送信する歌唱音送信処理と、
    前記取得した合成歌唱音の歌唱時間長を特定する歌唱時間長特定処理と、
    前記特定した歌唱時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理と
    を実行させるプログラム。
  18. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    提供者識別子を前記通信手段を介して受信する識別子受信処理と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記提供者識別子の発信元へ前記通信手段を介して送信する音声素片データ送信処理と、
    前記送信した音声素片データを接続して合成歌唱音を取得するに至るまでの当該接続に要した時間長を前記発信元から前記通信手段を介して受信する時間長受信処理と、
    前記受信した時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理と
    を実行させるプログラム。
  19. 音声素片の提供者の肉声を解析して得られた各提供者毎の音声素片データ群を、音声素片の提供者を一意に識別する提供者識別子と各々対応付けて記憶した素片データ記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    提供者識別子、及び楽曲の旋律と歌詞を表す楽譜情報を前記通信手段を介して受信する受信処理と、
    前記受信した提供者識別子と対応付けられた音声素片データ群を前記素片データ記憶手段から読出し、読み出した音声素片データ群の全部又は一部を前記受信した楽譜情報の内容に応じて接続することで合成歌唱音を取得する歌唱音取得処理と、
    前記取得した合成歌唱音を前記提供者識別子及び楽譜情報の発信元へ前記通信手段を介して送信する歌唱音送信処理と、
    前記合成歌唱音の取得に至るまでの音声素片データの接続に要した時間長を特定する時間長特定処理と、
    前記特定した時間長を外部の課金額管理装置宛てに前記通信手段を介して送信する利用量通知処理と
    を実行させるプログラム。
  20. 肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を前記通信手段を介して受信する歌唱時間長受信処理と、
    前記歌唱時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出手段と
    を実行させるプログラム。
  21. 肉声を解析して得られた音声素片データ群の提供に対する課金額の総計額を記憶する課金額記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    前記音声素片データ群の全部又は一部を接続することで取得された合成歌唱音の歌唱時間長を前記通信手段を介して受信する歌唱時間長受信処理と、
    前記合成歌唱音の取得の際における、前記音声素片データの提供元とその提供先とのデータ授受に要した時間長である利用時間長を前記通信手段を介して受信する利用時間長受信処理と、
    前記利用時間長に応じた第1の課金額を算出すると共に、前記歌唱時間長に応じた第2の課金額を算出する算出処理と、
    前記算出した第1の課金額と第2の課金額を合算することで課金額の総計額を求め、求めた総計額を前記課金額記憶手段に記憶する合算処理と
    を実行させるプログラム。
  22. 肉声を解析して得られた音声素片データ群の提供に対する課金額を記憶する課金額記憶手段と、
    情報の通信手段と
    を備えたコンピュータ装置に、
    前記音声素片データの提供先において当該音声素片データを接続して合成歌唱音を取得した際の当該接続に要した時間長を前記通信手段を介して受信する時間長受信処理と、
    前記受信した時間長に応じた課金額を算出し、算出した課金額を前記課金額記憶手段に記憶する算出処理と
    を実行させるプログラム。
JP2004040554A 2004-02-17 2004-02-17 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム Pending JP2005234718A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004040554A JP2005234718A (ja) 2004-02-17 2004-02-17 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004040554A JP2005234718A (ja) 2004-02-17 2004-02-17 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム

Publications (1)

Publication Number Publication Date
JP2005234718A true JP2005234718A (ja) 2005-09-02

Family

ID=35017632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004040554A Pending JP2005234718A (ja) 2004-02-17 2004-02-17 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム

Country Status (1)

Country Link
JP (1) JP2005234718A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007093658A (ja) * 2005-09-27 2007-04-12 Yamaha Corp オーディオ装置及びカラオケ装置
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
JP2016033674A (ja) * 2015-11-02 2016-03-10 ヤマハ株式会社 音声合成装置および音声合成方法
WO2021200306A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理端末、情報処理方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007093658A (ja) * 2005-09-27 2007-04-12 Yamaha Corp オーディオ装置及びカラオケ装置
JP4561561B2 (ja) * 2005-09-27 2010-10-13 ヤマハ株式会社 カラオケ装置
WO2014088036A1 (ja) * 2012-12-04 2014-06-12 独立行政法人産業技術総合研究所 歌声合成システム及び歌声合成方法
JPWO2014088036A1 (ja) * 2012-12-04 2017-01-05 国立研究開発法人産業技術総合研究所 歌声合成システム及び歌声合成方法
US9595256B2 (en) 2012-12-04 2017-03-14 National Institute Of Advanced Industrial Science And Technology System and method for singing synthesis
JP2016033674A (ja) * 2015-11-02 2016-03-10 ヤマハ株式会社 音声合成装置および音声合成方法
WO2021200306A1 (ja) * 2020-03-30 2021-10-07 ソニーグループ株式会社 情報処理装置、情報処理端末、情報処理方法

Similar Documents

Publication Publication Date Title
JP3666364B2 (ja) コンテンツ生成サービス装置、システム及び記録媒体
US20090038467A1 (en) Interactive music training and entertainment system
CN106708894B (zh) 电子书配置背景音乐的方法和装置
JP2011013454A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
US10325581B2 (en) Singing voice edit assistant method and singing voice edit assistant device
JP2002149166A (ja) 楽曲情報配信装置、方法、及び記録媒体
CN102576524A (zh) 接收、分析并编辑音频来创建音乐作品的***和方法
JP2002197069A (ja) コンテンツ提供サービスシステム、およびサーバ装置、クライアント装置
KR101482739B1 (ko) 음원 편곡 서비스 방법 및 음원 편곡 서비스 시스템
JP2019066648A (ja) 歌唱音声の編集支援方法、および歌唱音声の編集支援装置
US20010056375A1 (en) Apparatus and method for transmitting and/or receiving information via communication network
TW202006634A (zh) 基於區塊鏈向作品演繹者發放獎勵的方法及裝置
JP2002229561A (ja) 自動アレンジ装置及び方法
JP2005234718A (ja) 音声素片データの取引方法、音声素片データ提供装置、課金額管理装置、音声素片データ提供プログラム、課金額管理プログラム
JP2011133882A (ja) 音声付映像合成システム及び音声付映像合成方法
JP2013164609A (ja) 歌唱合成用データベース生成装置、およびピッチカーブ生成装置
KR101790107B1 (ko) 음악 종합 서비스 방법 및 서버
KR102568089B1 (ko) 상호협업 기반 음악 콘텐츠 제작 서비스 제공 시스템
JP2002297136A (ja) 楽曲作成装置、音楽配信システム及びプログラム
KR20140054810A (ko) 반주음악 제작 서비스 시스템 및 그 방법, 그리고 이에 적용되는 장치
Gulz et al. Developing a method for identifying improvisation strategies in jazz duos
Weng et al. Exploring the competitive advantages of an innovative online music production framework combined with deep learning
CN111753127B (zh) 音乐信息处理、推荐方法及装置
WO2024075638A1 (ja) 音響モデルの訓練方法
WO2024075633A1 (ja) 音響モデルの訓練システム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080707

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080729