JP7483226B2 - Computer program, server device and method - Google Patents
Computer program, server device and method Download PDFInfo
- Publication number
- JP7483226B2 JP7483226B2 JP2019222758A JP2019222758A JP7483226B2 JP 7483226 B2 JP7483226 B2 JP 7483226B2 JP 2019222758 A JP2019222758 A JP 2019222758A JP 2019222758 A JP2019222758 A JP 2019222758A JP 7483226 B2 JP7483226 B2 JP 7483226B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice conversion
- user
- preset
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000004590 computer program Methods 0.000 title claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 325
- 238000004891 communication Methods 0.000 claims description 95
- 230000008859 change Effects 0.000 claims description 86
- 230000005236 sound signal Effects 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 38
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 5
- 239000011295 pitch Substances 0.000 description 56
- 230000006870 function Effects 0.000 description 42
- 238000010586 diagram Methods 0.000 description 26
- 230000007935 neutral effect Effects 0.000 description 23
- 230000015572 biosynthetic process Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000007423 decrease Effects 0.000 description 13
- 239000000284 extract Substances 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 230000006855 networking Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000003306 harvesting Methods 0.000 description 2
- 235000001630 Pyrus pyrifolia var culta Nutrition 0.000 description 1
- 240000002609 Pyrus pyrifolia var. culta Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Telephonic Communication Services (AREA)
Description
本件出願に開示された技術は、ユーザの発話に基づいて得られた音声信号に対して信号処理を行うことにより加工された音声信号を生成するボイスチェンジャに関する。 The technology disclosed in this application relates to a voice changer that generates a processed voice signal by performing signal processing on a voice signal obtained based on a user's speech.
昨今、ユーザが自己の声とは異なる声により表現された音声を得るためのサービス又は製品が提供されている。 Recently, services and products have been provided that allow users to obtain audio expressed in a voice other than their own.
まず、「LisPon」と称されるサービスでは、或るユーザからのリクエストに対して、美声を有する他のユーザが自己の声を録音して上記或るユーザに返信するものとされている(非特許文献1)。 First, in a service called "LisPon," in response to a request from a certain user, other users with beautiful voices record their own voices and reply to the user (Non-Patent Document 1).
次に、入力した音声を加工して出力するボイスチェンジャと称される技術も知られている。ハードウェア形態のボイスチェンジャとしては、例えば「VT3 Voice Transformer」と称されるDSP(ディジタル信号処理プロセッサ)を搭載した製品が挙げられる(非特許文献2)。ソフトウェア形態のボイスチェンジャとしては、「恋声」と称されるものが知られている(非特許文献3)。これらのボイスチェンジャは、ともに、マイクにより入力された音声信号のピッチ及びフォルマント等を含むパラメータをユーザにより設定された値に従って加工して音声信号として出力する。さらに別の形態のボイスチェンジャとしては、特開2007-114561号公報(特許文献1)に記載されたものがある。この公報に記載された技術にあっては、携帯電話機が、マイクにより入力された音声信号に対して音声変換アルゴリズムを適用することにより、多人数によるハーモニーが付加されたような音声信号を出力する。 Next, there is also known a technology called a voice changer that processes and outputs input voice. An example of a hardware voice changer is a product equipped with a DSP (digital signal processor) called a "VT3 Voice Transformer" (Non-Patent Document 2). A software voice changer known as "Koe-sei" (Non-Patent Document 3). Both of these voice changers process parameters including pitch and formants of a voice signal input by a microphone according to values set by the user, and output the processed voice signal. Yet another type of voice changer is described in Japanese Patent Laid-Open Publication No. 2007-114561 (Patent Document 1). In the technology described in this publication, a mobile phone applies a voice conversion algorithm to a voice signal input by a microphone, and outputs a voice signal that sounds like it has multiple people singing in harmony.
さらに、ウェブサイトを介してボイスチェンジャを提供するサービスとしては、「ユーザーローカル ボイスチェンジャ」と称されるサービスが知られている(非特許文献4)。このサービスにあっては、ウェブブラウザが、ユーザの音声を録音して生成した音声ファイルをアップロードし、さらに、ピッチ、フォルマント及び変換パターン等を含むパラメータを設定して送信すると、サーバが、ボイスチェンジャとして、設定されたパラメータに従って、音声ファイルを加工して再生する。 Furthermore, a service known as a "user local voice changer" is known as a service that provides a voice changer via a website (Non-Patent Document 4). With this service, a web browser records the user's voice and creates an audio file, uploads it, and then sets and transmits parameters including pitch, formant, conversion pattern, etc. The server then processes the audio file as a voice changer and plays it back according to the set parameters.
なお、上記非特許文献1乃至4及び上記特許文献1は、引用によりその全体が本明細書に組み入れられる。
The above
昨今、ユーザに適したボイスチェンジャを提供することが望まれている。したがって、本件出願に開示された技術は、ユーザに適したボイスチェンジャを提供することが可能な手法を提供する。 Nowadays, there is a demand for providing a voice changer that is suitable for the user. Therefore, the technology disclosed in this application provides a method that makes it possible to provide a voice changer that is suitable for the user.
一態様に係るコンピュータプログラムは、「少なくとも1つのプロセッサにより実行されることにより、対象ユーザによる発話に基づく音声信号に対する信号処理により算出される基本周波数を参照基本周波数として取得し、第1基準値を基準とした前記参照基本周波数の変化量を取得し、各々が前記第1基準値を基準とした基本周波数の変化量を定める複数の音声変換プリセットを取得し、前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との間の距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する、ように前記プロセッサを機能させる」ものである。 The computer program according to one embodiment "is executed by at least one processor to cause the processor to function as follows: obtain a fundamental frequency calculated by signal processing of a voice signal based on the speech of a target user as a reference fundamental frequency; obtain an amount of change in the reference fundamental frequency based on a first reference value; obtain a plurality of voice conversion presets, each of which defines an amount of change in the fundamental frequency based on the first reference value; and calculate a distance between a voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user based on the amount of change in the fundamental frequency and the amount of change in the reference fundamental frequency defined by the voice conversion preset."
一態様に係るサーバ装置は、「少なくとも1つのプロセッサを具備し、該プロセッサが、対象ユーザによる発話に基づく音声信号に対する信号処理により算出される基本周波数を参照基本周波数として取得し、第1基準値を基準とした前記参照基本周波数の変化量を取得し、各々が第1基準値を基準とした基本周波数の変化量を定める複数の音声変換プリセットを取得し、前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する」ものである。 The server device according to one embodiment includes at least one processor, which acquires a fundamental frequency calculated by signal processing of a voice signal based on the speech of a target user as a reference fundamental frequency, acquires an amount of change in the reference fundamental frequency based on a first reference value, acquires a plurality of voice conversion presets each of which defines an amount of change in the fundamental frequency based on a first reference value, and calculates a distance between a voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user based on the amount of change in the fundamental frequency and the amount of change in the reference fundamental frequency determined by the voice conversion preset.
一態様に係る方法は、「各々が第1基準値を基準とした基本周波数の変化量を定める複数の音声変換プリセットを取得する第4取得工程と、前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する算出工程と、を含む」ものである。 The method according to one embodiment includes "a fourth acquisition step of acquiring a plurality of voice conversion presets, each of which defines an amount of change in fundamental frequency based on a first reference value, and a calculation step of calculating the distance between the voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user based on the amount of change in fundamental frequency defined by the voice conversion preset and the amount of change in the reference fundamental frequency."
以下、添付図面を参照して本発明の様々な実施形態を説明する。なお、図面において共通した構成要素には同一の参照符号が付されている。また、或る図面に表現された構成要素が、説明の便宜上、別の図面においては省略されていることがある点に留意されたい。さらにまた、添付した図面が必ずしも正確な縮尺で記載されている訳ではないということに注意されたい。 Various embodiments of the present invention will now be described with reference to the accompanying drawings. Note that common components in the drawings are given the same reference numerals. It should also be noted that components depicted in one drawing may be omitted in another drawing for ease of explanation. Furthermore, it should also be noted that the accompanying drawings are not necessarily drawn to scale.
1.通信システムの例
図1は、一実施形態に係る通信システムの構成の一例を示すブロック図である。図1に示すように、通信システム1は、通信網10に接続される1又はそれ以上の端末装置20と、通信網10に接続される1又はそれ以上のサーバ装置30と、を含むことができる。なお、図1には、端末装置20の例として、3つの端末装置20A~20Cが例示され、サーバ装置30の例として、3つのサーバ装置30A~30Cが例示されているが、端末装置20として、これら以外の1又はそれ以上の端末装置20が通信網10に接続され得るし、サーバ装置30として、これら以外の1又はそれ以上のサーバ装置30が通信網10に接続され得る。
1. Example of a communication system FIG. 1 is a block diagram showing an example of a configuration of a communication system according to an embodiment. As shown in FIG. 1, the
また、通信システム1は、通信網10に接続される1又はそれ以上のスタジオユニット40を含むことができる。なお、図1には、スタジオユニット40の例として、2つのスタジオユニット40A及び40Bが例示されているが、スタジオユニット40として、これら以外の1又はそれ以上のスタジオユニット40が通信網10に接続され得る。
The
「第1の態様」では、図1に示す通信システム1において、ユーザにより操作され特定のアプリケーション(音声/動画配信用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)を実行する端末装置20(例えば端末装置20A)が、端末装置20Aに対向するユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて「変換器」、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセットを取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する。さらに、サーバ装置30Aが、端末装置20Aから受信した音声信号を(必要に応じて動画信号とともに)、通信網10を介して他の1又はそれ以上の端末装置20であって特定のアプリケーション(音声/動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)を実行して音声/動画の配信を要求する旨を送信した端末装置20に配信することができる。
In the "first aspect," in the
また、この「第1の態様」では、後に説明するように、ユーザの発話に関する音声信号を取得してから変換器(音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット(音声変換プリセット))を取得するまでの一連の動作のすべてが、端末装置20によって実行されるようにしてもよいし、これら一連の動作のうち、音声信号の取得を除く動作の少なくとも一部が、サーバ装置30又は他の端末装置20により実行されるようにしてもよい。
In addition, in this "first aspect," as described later, the entire series of operations from acquiring a voice signal related to the user's speech to acquiring a converter (a voice conversion algorithm and a set of parameters used for voice conversion (voice conversion preset)) may be executed by the
「第2の態様」では、図1に示す通信システム1において、例えばスタジオ等又は他の場所に設置されたサーバ装置30(例えばサーバ装置30B)が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて変換器(音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット(音声変換プリセット))を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介して1又はそれ以上の端末装置20であって特定のアプリケーション(動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)を実行して動画の配信を要求する旨を送信した端末装置20に配信することができる。
In the "second aspect," in the
「第3の態様」では、図1に示す通信システム1において、例えばスタジオ等又は他の場所に設置されたスタジオユニット40が、上記スタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて変換器(音声変換アルゴリズム、及び、音声変換に用いられるパラメータのセット(音声変換プリセット))を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する。さらに、サーバ装置30Aが、スタジオユニット40から受信した音声信号を(必要に応じて動画信号とともに)、通信網10を介して他の1又はそれ以上の端末装置20であって特定のアプリケーション(音声/動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)を実行して音声/動画の配信を要求する旨を送信した端末装置20に配信することができる。
In the "third aspect," in the
通信網10は、携帯電話網、無線LAN、固定電話網、インターネット、イントラネット及び/又はイーサネット(登録商標)等をこれらに限定することなく含むことができるものである。
The
端末装置20は、インストールされた特定のアプリケーションを実行することにより、ユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する、という動作等を実行することができる。なお、音声変換アルゴリズムとしては、任意のアルゴリズムを用いることが可能である。或いはまた、端末装置20は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
By executing a specific installed application, the
端末装置20は、このような動作を実行することができる任意の端末装置であって、スマートフォン、タブレット、携帯電話(フィーチャーフォン)及び/又はパーソナルコンピュータ等を、これらに限定することなく含むことができるものである。
The
サーバ装置30は、「第1の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、各端末装置20からユーザの音声信号を(必要に応じて動画信号とともに)、通信網10を介して受信し、受信した音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
In the "first aspect," the
サーバ装置30は、「第2の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、このサーバ装置30が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
In the "second aspect," the
さらにまた、サーバ装置30は、「第3の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、スタジオ等又は他の場所に設置されたスタジオユニット40からこのスタジオ等に居るユーザの音声信号を(必要に応じて動画信号とともに)、通信網10を介して受信し、受信した音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット40に送信するウェブページを介して、同様の動作を実行することができる。
Furthermore, in the "third aspect," the
スタジオユニット40は、インストールされた特定のアプリケーションを実行する情報処理装置として機能することにより、このスタジオユニット40が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する、という動作等を実行することができる。或いはまた、スタジオユニット40は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
The studio unit 40 functions as an information processing device that executes a specific installed application, thereby acquiring an audio signal related to the speech of a user in the studio where the studio unit 40 is installed or in another location, acquiring a converter, i.e., a voice conversion algorithm and a voice conversion preset (a set of parameters used for voice conversion) based on the acquired audio signal, generating a converted audio signal using the acquired converter, and transmitting the generated audio signal (together with a video signal, if necessary) to the server device 30 (e.g.,
2.各装置のハードウェア構成
次に、端末装置20、サーバ装置30及びスタジオユニット40の各々が有するハードウェア構成の一例について説明する。
2. Hardware Configuration of Each Device Next, an example of the hardware configuration of each of the
2-1.端末装置20のハードウェア構成
各端末装置20のハードウェア構成例について図2を参照して説明する。図2は、図1に示した端末装置20(サーバ装置30)のハードウェア構成の一例を模式的に示すブロック図である(なお、図2において、括弧内の参照符号は、後述するように各サーバ装置30に関連して記載されたものである。)
2-1. Hardware configuration of
図2に示すように、各端末装置20は、主に、中央処理装置21と、主記憶装置22と、入出力インタフェイス装置23と、入力装置24と、補助記憶装置25と、出力装置26と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
As shown in FIG. 2, each
中央処理装置21は、「CPU」と称されるものであり、主記憶装置22に記憶されている命令及びデータに対して演算を行い、その演算の結果を主記憶装置22に記憶させるものである。さらに、中央処理装置21は、入出力インタフェイス装置23を介して、入力装置24、補助記憶装置25及び出力装置26等を制御することができる。端末装置20は、1又はそれ以上のこのような中央処理装置21を含むことが可能である。
The
主記憶装置22は、「メモリ」と称されるものであり、入力装置24、補助記憶装置25及び通信網10等(サーバ装置30等)から、入出力インタフェイス装置23を介して受信した命令及びデータ、並びに、中央処理装置21の演算結果を記憶するものである。主記憶装置22は、RAM(ランダムアクセスメモリ)、ROM(リードオンリーメモリ)及び/又はフラッシュメモリ等をこれらに限定することなく含むことができる。
The
補助記憶装置25は、主記憶装置22よりも大きな容量を有する記憶装置である。上記特定のアプリケーションやウェブブラウザ等を構成する命令及びデータ(コンピュータプログラム)を記憶しておき、中央処理装置21により制御されることにより、これらの命令及びデータ(コンピュータプログラム)を入出力インタフェイス装置23を介して主記憶装置22に送信することができる。補助記憶装置25は、磁気ディスク装置及び/又は光ディスク装置等をこれらに限定することなく含むことができる。
The
入力装置24は、外部からデータを取り込む装置であり、タッチパネル、ボタン、キーボード、マウス及び/又はセンサ(マイク)等をこれらに限定することなく含むものである。
The
出力装置26は、ディスプレイ装置、タッチパネル及び/又はプリンタ装置等をこれらに限定することなく含むことができる。
The
このようなハードウェア構成にあっては、中央処理装置21が、補助記憶装置25に記憶された特定のアプリケーションを構成する命令及びデータ(コンピュータプログラム)を順次主記憶装置22にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス装置23を介して出力装置26を制御し、或いはまた、入出力インタフェイス装置23及び通信網10を介して、他の装置(例えばサーバ装置30及び他の端末装置20等)との間で様々な情報の送受信を行うことができる。
In this hardware configuration, the
これにより、端末装置20は、インストールされた特定のアプリケーションを実行することにより、ユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信することができる。或いはまた、端末装置20は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
As a result, the
なお、端末装置20は、中央処理装置21に代えて又は中央処理装置21とともに、1又はそれ以上のマイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含むものであってもよい。
In addition, the
2-2.サーバ装置30のハードウェア構成
各サーバ装置30のハードウェア構成例について同じく図2を参照して説明する。各サーバ装置30のハードウェア構成としては、例えば、上述した各端末装置20のハードウェア構成と同一のものを用いることが可能である。したがって、各サーバ装置30が有する構成要素に対する参照符号は、図2において括弧内に示されている。
2-2. Hardware configuration of
図2に示すように、各サーバ装置30は、主に、中央処理装置31と、主記憶装置32と、入出力インタフェイス装置33と、入力装置34と、補助記憶装置35と、出力装置36と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
As shown in FIG. 2, each
中央処理装置31、主記憶装置32、入出力インタフェイス装置33、入力装置34、補助記憶装置35及び出力装置36は、それぞれ、上述した各端末装置20に含まれる、中央処理装置21、主記憶装置22、入出力インタフェイス装置23、入力装置24、補助記憶装置25及び出力装置26と略同一なものとすることができる。
The
このようなハードウェア構成にあっては、中央処理装置31が、補助記憶装置35に記憶された特定のアプリケーションを構成する命令及びデータ(コンピュータプログラム)を順次主記憶装置32にロードし、ロードした命令及びデータを演算することにより、入出力インタフェイス装置33を介して出力装置36を制御し、或いはまた、入出力インタフェイス装置33及び通信網10を介して、他の装置(例えば各端末装置20等)との間で様々な情報の送受信を行うことができる。
In this hardware configuration, the
これにより、サーバ装置30は、「第1の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、各端末装置20からユーザの音声信号を(必要に応じて動画信号とともに)、通信網10を介して受信し、受信した音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
In this way, in the "first aspect," the
また、サーバ装置30は、「第2の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、このサーバ装置30が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各端末装置20に送信するウェブページを介して、同様の動作を実行することができる。
In the "second aspect," the
さらにまた、サーバ装置30は、「第3の態様」では、インストールされた特定のアプリケーションを実行してアプリケーションサーバとして機能することにより、スタジオ等又は他の場所に設置されたスタジオユニット40からこのスタジオ等に居るユーザの音声信号を(必要に応じて動画信号とともに)、通信網10を介して受信し、受信した音声信号を(必要に応じて動画信号とともに)通信網10を介して各端末装置20に配信する、という動作等を実行することができる。
Furthermore, in the "third aspect," the
なお、サーバ装置30は、中央処理装置31に代えて又は中央処理装置31とともに、1又はそれ以上のマイクロプロセッサ、及び/又は、グラフィックスプロセッシングユニット(GPU)を含むものであってもよい。或いはまた、サーバ装置30は、インストールされた特定のアプリケーションを実行してウェブサーバとして機能することにより、各スタジオユニット40に送信するウェブページを介して、同様の動作を実行することができる。
The
2-3.スタジオユニット40のハードウェア構成
スタジオユニット40は、パーソナルコンピュータ等の情報処理装置により実装可能なものであって、図示はされていないが、上述した端末装置20及びサーバ装置30と同様に、主に、中央処理装置と、主記憶装置と、入出力インタフェイス装置と、入力装置と、補助記憶装置と、出力装置と、を含むことができる。これら装置同士は、データバス及び/又は制御バスにより接続されている。
2-3. Hardware Configuration of Studio Unit 40 The studio unit 40 can be implemented by an information processing device such as a personal computer, and although not shown, can mainly include a central processing unit, a main memory device, an input/output interface device, an input device, an auxiliary memory device, and an output device, similar to the above-mentioned
スタジオユニット40は、インストールされた特定のアプリケーションを実行して情報処理装置として機能することにより、このスタジオユニット40が設置されたスタジオ等又は他の場所に居るユーザの発話に関する音声信号を取得し、取得した音声信号に基づいて、変換器、すなわち、音声変換アルゴリズム及び音声変換プリセット(音声変換に用いられるパラメータのセット)を取得し、取得した変換器を用いて変換された音声信号を生成し、生成された音声信号を(必要に応じて動画信号とともに)、通信網10を介してサーバ装置30(例えばサーバ装置30A)に送信する、という動作等を実行することができる。或いはまた、スタジオユニット40は、インストールされたウェブブラウザを実行することにより、サーバ装置30からウェブページを受信及び表示して、同様の動作を実行することができる。
The studio unit 40 executes a specific installed application and functions as an information processing device, thereby acquiring an audio signal related to the speech of a user in the studio where the studio unit 40 is installed or in another location, acquiring a converter, i.e., a voice conversion algorithm and a voice conversion preset (a set of parameters used for voice conversion) based on the acquired audio signal, generating a converted audio signal using the acquired converter, and transmitting the generated audio signal (together with a video signal, if necessary) to the server device 30 (e.g.,
3.各装置の機能
次に、端末装置20、サーバ装置30及びスタジオユニット40の各々が有する機能の一例について説明する。
3. Functions of Each Device Next, an example of the functions of each of the
3-1.端末装置20の機能
端末装置20の機能の一例について図3を参照して説明する。図3は、図1に示した端末装置20(サーバ装置30)の機能の一例を模式的に示すブロック図である(なお、図3において、括弧内の参照符号は、後述するようにサーバ装置30に関連して記載されたものである。)。
3-1. Functions of the
図3に示すように、端末装置20は、主に、音声入力部210と、特徴量抽出部212と、変換器取得部214と、記憶部216と、通信部218と、表示部220と、を含むことができる。さらに、端末装置20は、特徴量変換部222と、音声合成部224と、を含むことができる。
As shown in FIG. 3, the
(1)音声入力部210
音声入力部210は、図示しないマイクを用いて、ユーザの発話に関する音声信号を入力する。なお、端末装置20がスマートフォン、タブレット及びラップトップ型のパーソナルコンピュータ等である場合には、音声入力部210は、上記マイクとして、本体に内蔵されたマイクを用いることが可能である。
(1)
The
(2)特徴量抽出部212
特徴量抽出部212は、音声入力部210により入力された音声信号に対して、例えば短時間フレーム分析を施すことにより、各時間フレームにおける各種の特徴量(音声特徴量)を抽出することができる。一実施形態では、特徴量抽出部212は、特徴量として、(i)声の高さを示す基本周波数、及び、(ii)声道の共鳴によって強調される周波数成分(例えば、第1フォルマントの周波数)を抽出することができる。
(2)
The
(3)変換器取得部214
変換器取得部214は、特徴量抽出部212により抽出された特徴量を用いて、ユーザにより用いられるべき1又は複数の変換器を取得することができる。ここで、「変換器」とは、ユーザの発話に関する音声信号であって変換対象である音声信号から抽出される少なくとも1つの特徴量をどのように変換するかを示すパラメータ(例えば、基本周波数をどの程度増加又は低下させるかを示すパラメータ、第1フォルマントの周波数をいずれの周波数の範囲に移動させるかを示すパラメータ等)有するものである。
(3)
The
(4)記憶部216
記憶部216は、端末装置20の動作に必要な様々な情報を記憶するものである。例えば、記憶部216は、音声/動画配信用のアプリケーション、音声/動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び/又は、ウェブブラウザ等を含む様々なアプリケーションと、これらのアプリケーションにより必要とされる及び/又は生成される様々な情報・信号・データ等と、を記憶することができる。
(4)
The
(5)通信部218
通信部218は、ユーザの発話に関する音声信号に用いるべき変換器を取得するに際して必要とされる情報及び/又は生成される情報、ユーザの発話に関する音声信号に対して、取得した変換器を用いて生成(加工)された音声信号等、を含む様々な情報を、通信網10を介してサーバ装置30及び/又は他の端末装置20等との間で送受信することができる。
(5)
The
(6)表示部220
表示部220は、音声/動画配信用のアプリケーション、音声/動画視聴用のアプリケーション、ボイスチェンジャー機能を有するアプリケーション、及び/又は、ウェブブラウザ等を含む様々なアプリケーションの実行により生成される様々な情報を、タッチパネル及びディスプレイ等を介して、ユーザに表示することができる。
(6)
The
(7)特徴量変換部222
特徴量変換部222は、ユーザの発話に関する音声信号から抽出した少なくとも1つの特徴量を、変換器取得部214により取得された変換器(音声変換アルゴリズム及び音声変換に用いられるパラメータのセット(プリセット))を用いて変換し、変換された少なくとも1つの特徴量を、音声合成部224に出力することができる。
(7)
The
(8)音声合成部224
音声合成部224は、特徴量変換部222から入力した、変換された少なくとも1つの特徴量を用いて音声合成処理を行うことにより、ユーザの音声が加工された音声信号を生成することができる。例えば、音声合成部224は、変換された少なくとも1つの特徴量から、ボコーダを用いることにより、ユーザの音声が加工された音声信号を生成することができる。
(8)
The
上述した各部の動作は、ユーザの端末装置20にインストールされた所定のアプリケーション(例えば音声/動画配信用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)がこの端末装置20により実行されることにより、この端末装置20により実行され得るものである。
The operation of each of the above-mentioned parts can be performed by the
3-2.サーバ装置30の機能
サーバ装置30の機能の具体例について同じく図3を参照して説明する。サーバ装置30の機能としては、例えば、上述した端末装置20の機能の少なくとも一部を用いることが可能である。したがって、サーバ装置30が有する構成要素に対する参照符号は、図3において括弧内に示されている。
3-2. Functions of the
まず、上述した「第2の態様」では、サーバ装置30は、以下に述べる相違点を除き、音声入力部310~音声合成部324として、それぞれ、端末装置20に関連して説明した音声入力部210~音声合成部224と同一のものを有するものとすることができる。
First, in the above-mentioned "second aspect," the
但し、この「第2の態様」では、サーバ装置30は、スタジオ等又は他の場所に配置され、複数のユーザにより用いられることが想定され得る。したがって、記憶部316は、複数のユーザの各々に対応付けて、取得した変換器等を含む様々な情報を記憶することができる。
However, in this "second aspect," it is possible that the
さらに、音声入力部310により用いられる又は音声入力部310に含まれるマイクは、サーバ装置30が設置されるスタジオ等又は他の場所において、ユーザが発話を行う空間においてユーザに対向して配置され得るものである。同様に、表示部320を構成するディスプレイやタッチパネル等もまた、ユーザが発話を行う空間においてユーザに対向して又はユーザの近くに配置され得るものである。
Furthermore, the microphone used by or included in the
通信部318は、ユーザの発話に関する音声信号に用いるべき変換器を取得するに際して必要とされる情報及び/又は生成される情報、ユーザの発話に関する音声信号に対して、取得した変換器を用いて生成(加工)された音声信号等、を含む様々な情報を、通信網10を介して、他のサーバ装置30及び/又は各端末装置20等との間で送受信することができる。
The
また、通信部260は、各ユーザに対応付けて記憶部316に記憶された音声信号及び/又は動画信号を格納したファイル等を、通信網10を介して複数の端末装置20に配信することができる。これら複数の端末装置20の各々は、インストールされた所定のアプリケーション(例えば音声/動画視聴用のアプリケーション、及び/又は、ボイスチェンジャー機能を有するアプリケーション等。ここでいうアプリケーションに代えて又はアプリケーションとともに、ミドルウェアを用いることも可能である。)を実行して、サーバ装置30に対して所望の動画の配信を要求する信号(リクエスト信号)を送信することにより、この信号に応答したサーバ装置30から所望の音声信号及び/又は動画信号を格納したファイル等を当該所定のアプリケーションを介して受信することができる。
The communication unit 260 can also distribute files containing audio signals and/or video signals stored in the
なお、記憶部316に記憶される情報(音声信号及び/又は動画信号を格納したファイル等)は、当該サーバ装置30に通信網10を介して通信可能な1又はそれ以上の他のサーバ装置(ストレージ)30に記憶されるようにしてもよい。
In addition, the information stored in the memory unit 316 (such as a file storing an audio signal and/or a video signal) may be stored in one or more other server devices (storage) 30 that can communicate with the
一方、上述した「第1の態様」では、上記「第2の態様」において用いられた音声入力部310~変換器取得部314、表示部320、特徴量変換部322及び音声合成部324をオプションとして用いることができる。通信部318は、上記のように動作することに加えて、各端末装置20により送信され通信網10から受信した、音声信号及び/又は動画信号を格納したファイル等を、記憶部316に記憶させた上で、複数の端末装置20に対して配信することができる。
On the other hand, in the above-mentioned "first aspect," the
他方、「第3の態様」では、上記「第2の態様」において用いられた音声入力部310~変換器取得部314、表示部320、特徴量変換部322及び音声合成部324をオプションとして用いることができる。通信部318は、上記のように動作することに加えて、スタジオユニット40により送信され通信網10から受信した、音声信号及び/又は動画情報を格納したファイル等を、記憶部316に記憶させた上で、複数の端末装置20に対して配信することができる。
On the other hand, in the "third aspect", the
3-3.スタジオユニット40の機能
スタジオユニット40は、図3に示した端末装置20又はサーバ装置30と同様の構成を有することにより、端末装置20又はサーバ装置30と同様の動作を行うことが可能である。但し、通信部218(318)は、記憶部216(316)に記憶された、音声信号及び/又は動画信号を格納したファイル等、通信網10を介してサーバ装置30に送信することができる。
3-3. Functions of the studio unit 40 The studio unit 40 has a similar configuration to the
音声入力部210(310)により用いられる又は音声入力部210(310)に含まれるマイクは、スタジオユニット40が設置されるスタジオ等又は他の場所において、ユーザが発話を行う空間においてユーザに対向して配置され得るものである。同様に、表示部220(320)を構成するディスプレイやタッチパネル等もまた、ユーザが発話を行う空間においてユーザに対向して又はユーザの近くに配置され得るものである。 The microphone used by or included in the audio input unit 210 (310) can be placed facing the user in the space in which the user speaks, such as in the studio where the studio unit 40 is installed or in another location. Similarly, the display, touch panel, etc. that constitutes the display unit 220 (320) can also be placed facing the user or near the user in the space in which the user speaks.
4.通信システム1において用いられる音声変換プリセットの機能について
次に、通信システム1において用いられる音声変換プリセットの機能について説明する。通信システム1では、特徴量の具体例として、(i)基本周波数、及び(ii)第1フォルマントの周波数が用いられる。
4. Functions of voice conversion presets used in the
人の声は、基本周波数、周波数特性及び音圧という3つの要素により特徴付けられるものである。基本周波数は、人の声の高さを特徴付けるものであり、周波数特性は、人の声の音色を特徴付けるものであり、音圧は、人の声の大きさを特徴付けるものである。 The human voice is characterized by three elements: fundamental frequency, frequency response, and sound pressure. The fundamental frequency characterizes the pitch of the human voice, the frequency response characterizes the timbre of the human voice, and the sound pressure characterizes the loudness of the human voice.
人の声道は、共鳴によって特定の周波数成分を強調する一種のフィルタであるといえる。声道の共鳴によって強調される周波数成分がフォルマントの周波数である。フォルマントの周波数は、無数に存在するが、周波数の低いものから、順次、第1フォルマントの周波数、第2フォルマントの周波数、第3フォルマントの周波数等のように称される。図4(横軸及び縦軸にそれぞれ周波数([Hz])及び音圧・振幅([dB])が示されている)に例示されるように、周波数スペクトルにおいては、声の高さを示す基本周波数の後に、第1フォルマントの周波数、第2フォルマントの周波数等が順次続く。 The human vocal tract can be thought of as a kind of filter that emphasizes certain frequency components through resonance. The frequency components emphasized by resonance in the vocal tract are formant frequencies. There are an infinite number of formant frequencies, but from the lowest frequency they are called the first formant frequency, the second formant frequency, the third formant frequency, and so on. As illustrated in Figure 4 (where the horizontal and vertical axes show frequency ([Hz]) and sound pressure/amplitude ([dB]), respectively), in the frequency spectrum, the fundamental frequency indicating the pitch of the voice is followed by the first formant frequency, the second formant frequency, and so on.
通信システム1において用意される複数の音声変換プリセットの各々は、ユーザの発話に関する音声信号から抽出された基本周波数及び第1フォルマントの周波数を、その音声変換プリセットにより定められた変化量に応じて変換するものである。
Each of the multiple voice conversion presets provided in
具体的には、図5A、図5B及び図5Cに示すように、基本周波数(pitch)(のオクターブ表現)を示す第1軸(横軸)と第1フォルマント(1st formant)の周波数(のオクターブ表現)を示す第2軸(縦軸)とにより定められる2次元座標系(以下「pf平面」と称する)を考える。 Specifically, as shown in Figures 5A, 5B, and 5C, consider a two-dimensional coordinate system (hereinafter referred to as the "pf plane") defined by a first axis (horizontal axis) indicating the fundamental frequency (pitch) (its octave expression) and a second axis (vertical axis) indicating the frequency of the first formant (1st formant) (its octave expression).
例えば、基本周波数fP1及び第1フォルマントの周波数fF1を有する標準的な男性の声が、pf平面において「標準男性」(0,0)として配置される。 For example, a standard male voice with a fundamental frequency f P1 and a first formant frequency f F1 is placed as "standard male" (0,0) in the pf plane.
一般的に、女性の基本周波数は、男性の基本周波数を12pitch増加させることにより得られることが分かっている。但し、8pitchが1物理的オクターブに相当するものとする。また、一般的には、基本周波数pと第1フォルマントfとの間には、f=p/3という関係が成り立ち得る。したがって、標準的な女性の声が、pf平面において「標準女性」(12,4)として仮に配置される。これは、基本周波数fP2及び第1フォルマントの周波数fF2を有する標準的な女性の声が、pf平面において「標準女性」(12,4)として配置されることを意味する。
さらに、中性の声が、標準男性(0,0)と標準女性(12,4)との中点において「中性(6,2)」として配置される。
It is generally known that a female fundamental frequency can be obtained by increasing a male fundamental frequency by 12 pitches. Here, 8 pitches correspond to one physical octave. In addition, generally, the relationship f=p/3 can be established between the fundamental frequency p and the first formant f. Therefore, a standard female voice is provisionally placed as a "standard female" (12,4) on the pf plane. This means that a standard female voice having a fundamental frequency fP2 and a first formant frequency fF2 is placed as a "standard female" (12,4) on the pf plane.
Additionally, a neutral voice is placed as "neutral (6,2)" at the midpoint between standard male (0,0) and standard female (12,4).
図5Aには、男性の声を変換する音声変換プリセットの例(AM、BM及びCM)が示され、図5Bには、女性の声を変換する音声変換プリセット(AF、BF及びCF)の例が示されている。図5Cには、中性の声を変換する音声変換プリセット(AN、BN及びCN)の例が示されている。なお、A、B及びCは、それぞれ、キャラクターA、B及びCの声を目標として入力音声信号を変換する音声変換プリセットの名称を示し、添字Mは、男性用の入力音声信号を変換するプリセットを示し、添字Fは、女性用の入力音声信号を変換するプリセットを示し、添字Nは、中性用の入力音声信号を変換するプリセットを示すものである。 5A shows examples of voice conversion presets (A M , B M , and C M ) for converting a male voice, and FIG. 5B shows examples of voice conversion presets (A F , B F , and C F ) for converting a female voice. FIG. 5C shows examples of voice conversion presets (A N , B N , and C N ) for converting a neutral voice. Note that A, B, and C indicate the names of voice conversion presets that convert input voice signals to the voices of characters A, B, and C, respectively, the subscript M indicates a preset that converts a male input voice signal, the subscript F indicates a preset that converts a female input voice signal, and the subscript N indicates a preset that converts a neutral input voice signal.
まず、図5Aを参照すると、各音声変換プリセットは、標準男性の基本周波数(男性用の第1基準値)(=0)を基準とした基本周波数の変化量を定め、標準男性の第1フォルマントの周波数(男性用の第2基準値)(=0)を基準とした第1フォルマントの周波数の変化量を定めるものである。例えば、音声変換プリセットAM(17,6)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を17pitch増加させ、その入力音声信号の第1フォルマントの周波数を6formant増加させるものである。 5A, each voice conversion preset defines the amount of change in fundamental frequency based on the standard male fundamental frequency (first reference value for men) (=0) and defines the amount of change in the frequency of the first formant based on the standard male first formant frequency (second reference value for men) (=0). For example, the voice conversion preset A M (17,6) increases the fundamental frequency of the input voice signal by 17 pitches and increases the frequency of the first formant of the input voice signal by 6 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (0,0) on the pf plane.
同様に、音声変換プリセットBM(9,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を9pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させるものである。さらに同様に、音声変換プリセットCM(-3,-1)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(0,0)に配置されると仮定して、その入力音声信号の基本周波数を3pitch減少させ、その入力音声信号の第1フォルマントの周波数を1formant減少させるものである。 Similarly, the voice conversion preset B M (9,3) increases the fundamental frequency of the input voice signal by 9 pitches and increases the frequency of the first formant of the input voice signal by 3 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (0,0) on the pf plane.Further similarly, the voice conversion preset C M (-3,-1) decreases the fundamental frequency of the input voice signal by 3 pitches and decreases the frequency of the first formant of the input voice signal by 1 formant, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (0,0) on the pf plane.
次に、図5Bを参照すると、各音声変換プリセットは、標準女性の基本周波数(女性用の第1基準値)(=12)を基準とした基本周波数の変化量を定め、標準女性の第1フォルマントの周波数(女性用の第2基準値)(=4)を基準とした第1フォルマントの周波数の変化量を定めるものである。例えば、音声変換プリセットAF(5,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を5pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させるものである。 5B, each voice conversion preset defines the amount of change in fundamental frequency based on the standard female fundamental frequency (first reference value for women) (=12) and defines the amount of change in the frequency of the first formant based on the standard female first formant frequency (second reference value for women) (=4). For example, the voice conversion preset A F (5,3) increases the fundamental frequency of the input voice signal by 5 pitches and increases the frequency of the first formant of the input voice signal by 3 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (12,4) on the pf plane.
同様に、音声変換プリセットBF(-3,0)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を3pitch減少させ、その入力音声信号の第1フォルマントの周波数を変化させない(そのまま維持する)ものである。さらに同様に、音声変換プリセットCF(-15,-4)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(12,4)に配置されると仮定して、その入力音声信号の基本周波数を15pitch減少させ、その入力音声信号の第1フォルマントの周波数を4formant減少させるものである。 Similarly, the voice conversion preset B F (-3,0) reduces the fundamental frequency of the input voice signal by 3 pitches and leaves the frequency of the first formant of the input voice signal unchanged (maintains it as is), assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (12,4) on the pf plane.Further similarly, the voice conversion preset C F (-15,-4) reduces the fundamental frequency of the input voice signal by 15 pitches and reduces the frequency of the first formant of the input voice signal by 4 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (12,4) on the pf plane.
次に、図5Cを参照すると、各音声変換プリセットは、中性の基本周波数(中性用の第1基準値)(=6)を基準とした基本周波数の変化量を定め、中性の第1フォルマントの周波数(中性用の第2基準値)(=2)を基準とした第1フォルマントの周波数の変化量を定めるものである。例えば、音声変換プリセットAN(11,2.5)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を11pitch増加させ、その入力音声信号の第1フォルマントの周波数を2formant増加させるものである。 5C, each voice conversion preset defines the amount of change in fundamental frequency based on a neutral fundamental frequency (first reference value for neutral) (=6) and defines the amount of change in the frequency of the first formant based on a neutral first formant frequency (second reference value for neutral) (=2). For example, voice conversion preset A N (11,2.5) increases the fundamental frequency of the input voice signal by 11 pitches and increases the frequency of the first formant of the input voice signal by 2 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (6,2) on the pf plane.
同様に、音声変換プリセットBN(2.5,3)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を2.5pitch増加させ、その入力音声信号の第1フォルマントの周波数を3formant増加させるものである。さらに同様に、音声変換プリセットCN(-7,-4)は、入力音声信号の基本周波数及び第1フォルマントの周波数がpf平面上において(6,2)に配置されると仮定して、その入力音声信号の基本周波数を7pitch減少させ、その入力音声信号の第1フォルマントの周波数を4formant減少させるものである。 Similarly, the voice conversion preset B N (2.5, 3) increases the fundamental frequency of the input voice signal by 2.5 pitches and increases the frequency of the first formant of the input voice signal by 3 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (6, 2) on the pf plane.Further similarly, the voice conversion preset C N (-7, -4) decreases the fundamental frequency of the input voice signal by 7 pitches and decreases the frequency of the first formant of the input voice signal by 4 formants, assuming that the fundamental frequency and the frequency of the first formant of the input voice signal are located at (6, 2) on the pf plane.
なお、ここでは、標準的な男性の声が、基本周波数fP1及び第1フォルマントの周波数fF1を有するものとして、pf平面上において(0,0)に配置される場合について説明したが、複数の男性の基本周波数及び第1フォルマントの周波数を収集し、これらの基本周波数の平均値(例えばfPAVE)及びこれらの第1フォルマントの周波数の平均値(例えばfFAVE)が、pf平面上において(0,0)に配置されるようにしてもよい。このように、男性用の第1基準値は、複数の男性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第2基準値は、複数の男性ユーザから取得された第1フォルマントの周波数の平均値に基づいて設定され得るものである。 Although the case has been described here where a standard male voice has a fundamental frequency fP1 and a first formant frequency fF1 and is placed at (0,0) on the pf plane, the fundamental frequencies and first formant frequencies of a plurality of males may be collected, and the average value of these fundamental frequencies (e.g., fPAVE ) and the average value of these first formant frequencies (e.g., fFAVE ) may be placed at (0,0) on the pf plane. In this way, the first reference value for males may be set based on the average value of the fundamental frequencies obtained from a plurality of male users, and the second reference value for males may be set based on the average value of the first formant frequencies obtained from a plurality of male users.
同様に、ここでは、標準的な女性の声が、pf平面上において(12,4)に配置される場合について説明したが、複数の女性の基本周波数及び第1フォルマントの周波数を収集し、これらの基本周波数の平均値(例えばfPAVE2)及びこれらの第1フォルマントの周波数の平均値(例えばfFAVE2)が、pf平面上において(12,4)に配置されるようにしてもよい。このように、女性用の第1基準値は、複数の女性ユーザから取得された基本周波数の平均値に基づいて設定され得るものであり、男性用の第2基準値は、複数の女性ユーザから取得された第1フォルマントの周波数の平均値に基づいて設定され得るものである。 Similarly, although a case has been described here in which a standard female voice is placed at (12, 4) on the pf plane, the fundamental frequencies and first formant frequencies of a plurality of female users may be collected, and the average value of these fundamental frequencies (e.g., f PAVE2 ) and the average value of these first formant frequencies (e.g., f FAVE2 ) may be placed at (12, 4) on the pf plane. In this way, the first reference value for females may be set based on the average value of the fundamental frequencies obtained from a plurality of female users, and the second reference value for males may be set based on the average value of the first formant frequencies obtained from a plurality of female users.
5.通信システム1の動作
次に、上述した構成を有する通信システム1の動作の具体例について、図6を参照して説明する。図6は、図1に示した通信システム1において行われる動作の一例を示すフロー図である。ここでは、特徴量として、(i)基本周波数、(ii)第1フォルマントの周波数を用いる場合に着目する。
5. Operation of
図6を参照すると、まず、ステップ(以下「ST」という。)600において、対象ユーザAの端末装置20が、この対象ユーザAの発話に関する音声信号をサンプルとして入力することができる。具体的には、まず、端末装置20は、対象ユーザAに対して、対象ユーザAの性別(男性、女性又は中性)、及び、用意された複数のキャラクター(例えば、図7に例示するキャラクターA~L)の中から対象ユーザAが希望するキャラクターを指定するように、表示部220に表示されたユーザインタフェイスを介して要求することができる。
Referring to FIG. 6, first, in step (hereinafter referred to as "ST") 600, the
端末装置20は、図7に例示されるように、各キャラクター(各音声変換プリセット)に固有のサンプルとなるセリフを記憶する(又はサーバ装置30から受信する)ことができる。各キャラクター(各音声変換プリセット)に個別に用意されたセリフは、同一の音素が並ぶように設定可能なものである。また、各キャラクターに固有のセリフは、そのキャラクターのイメージに沿って多様な抑揚が付与されたものとされ得る。これにより、このセリフを発話することにより得られる音声信号にあっては、ユーザごとに同様の抑揚が生ずる可能性が高くなる、すなわち、最も高い声(最も高い周波数)、最も低い声(最も低い周波数)及びその中間の声(その中間の周波数)が生ずる可能性が高くなる。さらに、各キャラクターに固有のセリフは、端末装置20によりユーザインタフェイスを介して指定された発話開始時間から発話終了時間までの間(例えば約10秒間)に、各ユーザにより発話されるものであるため、各ユーザ間において、発話を開始するタイミング及び発話を終了するタイミングが略一致するようになっている。なお、図7に例示した各セリフにおいて、〇〇という部分は、各ユーザに固有の名前等に相当し得る。よって、この部分は、ユーザ毎に異なるセリフとなるが、統計的誤差として吸収可能なものである。
As illustrated in FIG. 7, the
次に、端末装置20は、対象ユーザAにより指定されたキャラクターについて個別に用意されたセリフを表示部220に表示して、発話開始時間から発話終了時間までの間に対象ユーザにそのセリフを発話させる。これにより、端末装置20は、対象ユーザAの発話に関する音声信号(サンプル音声信号)を取得することができる。
Next, the
次に、ST602において、端末装置20は、サンプル音声信号を用いて、対象ユーザAの声と各音声変換プリセットに対応する声との距離を算出する。この処理について、図8を参照して説明する。図8は、図1に示した通信システム1において行われる対象ユーザの声と各音声変換プリセットに対応する声との距離を算出する方法の一例を示すフロー図である。
Next, in ST602, the
図8を参照すると、ST700において、端末装置20が、ST600において取得したサンプル音声信号を用いて、基本周波数を参照基本周波数として取得することができる。具体的には、端末装置20は、対象ユーザAについて得られたサンプル音声信号に対して任意の既知の信号処理を実行することにより基本周波数を抽出することができる。
Referring to FIG. 8, in ST700, the
既知の信号処理の第1の手法として、ゼロ交差法を用いた手法を利用することが可能である。図9は、図1に示した通信システム1において基本周波数(及び第1フォルマントの周波数)を取得するために用いられる方法の一例を示すブロック図である。
As a first known signal processing technique, a technique using the zero-crossing method can be used. Figure 9 is a block diagram showing an example of a method used to obtain the fundamental frequency (and the frequency of the first formant) in the
図9に例示するように、サンプル音声信号が、例えばM個のフィルタ(フィルタ710A1~710AM)に入力される。これらのフィルタの各々は、帯域通過フィルタとして機能するものであって、入力されたサンプル音声信号のうちそのフィルタに固有の通過帯域に対応する周波数成分のみを出力することができる。 9, a sample audio signal is input to, for example, M filters (filters 710A 1 to 710A M ). Each of these filters functions as a band-pass filter and can output only frequency components of the input sample audio signal that correspond to a pass band specific to that filter.
計算部710B1~710BMは、それぞれ、フィルタ710A1~710AMにより出力された信号を用いて、ゼロ交差法に基づいて基本周波数らしさを計算することができる。選択部710Cは、計算部B1~710BMにより計算された基本周波数らしさのうち、最も信頼できるものを選択し、このように選択した基本周波数らしさに対応する周波数をサンプル音声信号の基本周波数として出力することができる。
The calculation units 710B 1 to 710B M can calculate the fundamental frequency likeness based on the zero-crossing method using the signals output by the filters 710A 1 to 710A M. The
また、既知の信号処理の第2の手法として、端末装置20は、サンプル音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数を抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換(FFT)を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、一実施形態では、端末装置20は、例えば、音声分析変換合成システム「World」(http://www.kki.yamanashi.ac.jp/~mmorise/world/index.html)においてオープンソース実装されているHarvest及びD10等のアルゴリズムを用いること等により、基本周波数を算出することができる。
As a second known signal processing technique, the
- Emphasis the high frequency components of the waveform using a pre-emphasis filter - After applying a window function, perform an inverse fast Fourier transform (FFT) to obtain the amplitude spectrum - Compress the amplitude spectrum by applying a Mel filter bank - Treat the compressed numeric sequence as a signal and perform a discrete cosine transform In one embodiment, the
一実施形態では、発話開始時間から発話終了時間まで約10秒間のサンプル音声信号を複数の時間区間に分割し、各時間区間ごとに上述したいずれか既知の手法により基本周波数が算出され得る。これにより、基本周波数の最大値、最小値及び中央値が抽出され得る。このような基本周波数の最大値、最小値及び中央値を平均した値が、最終的な基本周波数(以下「参照基本周波数」ということがある。)として取得され得る。別の実施形態では、上記のように抽出された基本周波数の最大値、最小値及び中央値のうち、いずれか1つの値が「参照基本周波数」として抽出され得る。 In one embodiment, a sample voice signal of about 10 seconds from the speech start time to the speech end time is divided into multiple time intervals, and the fundamental frequency can be calculated for each time interval using any of the known methods described above. This allows the maximum, minimum, and median values of the fundamental frequency to be extracted. The average value of such maximum, minimum, and median values of the fundamental frequency can be obtained as the final fundamental frequency (hereinafter sometimes referred to as the "reference fundamental frequency"). In another embodiment, any one of the maximum, minimum, and median values of the fundamental frequency extracted as described above can be extracted as the "reference fundamental frequency".
図8に戻り、次に、ST702において、端末装置20は、第1基準値を基準とした参照基本周波数の変化量を取得する。具体的には、対象ユーザAが男性である場合、すなわち、対象ユーザAが「男性」を選択した場合(対象ユーザAの性別は上述したST600において対象ユーザAにより入力されている)には、男性用の第1基準値は、例えば標準的な男性の声の基本周波数fP1として設定されているところ、端末装置20は、対象ユーザAの参照基本周波数が、男性用の第1基準値からどれだけ(何pitch)変化させたものであるかを算出することができる。対象ユーザAの参照基本周波数が男性用の第1基準値から何pitch変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、男性用の第1基準値と参照基本周波数との差異(割合)と、に基づいて算出することが可能なものである。
Returning to FIG. 8, next, in ST702, the
一方、対象ユーザAが女性である場合、すなわち、対象ユーザAが上述したST600において「女性」を選択した場合には、女性用の第1基準値は、例えば標準的な女性の声の基本周波数fP2として設定されているところ、端末装置20は、対象ユーザAの参照基本周波数が、女性用の第1基準値からどれだけ(何pitch)変化させたものであるかを算出することができる。対象ユーザAの参照基本周波数が女性用の第1基準値から何pitch変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、女性用の第1基準値と参照基本周波数との差異(割合)と、に基づいて算出することが可能なものである。
On the other hand, when the target user A is a woman, that is, when the target user A selects "female" in ST600 described above, the first reference value for women is set as, for example, the fundamental frequency f P2 of a standard female voice, and the
他方、対象ユーザAが中性である場合、すなわち、対象ユーザAが上述したST600において「中性」を選択した場合には、中性用の第1基準値は、例えば標準的な女性の声の基本周波数fP3として設定されているところ、端末装置20は、対象ユーザAの参照基本周波数が、中性用の第1基準値からどれだけ(何pitch)変化させたものであるかを算出することができる。対象ユーザAの参照基本周波数が中性用の第1基準値から何pitch変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、中性用の第1基準値と参照基本周波数との差異(割合)と、に基づいて算出することが可能なものである。
On the other hand, when the target user A is neutral, that is, when the target user A selects "neutral" in ST600 described above, the first reference value for neutral is set as, for example, the fundamental frequency f P3 of a standard female voice, and the
次に、ST704において、端末装置20が、ST600において取得したサンプル音声信号を用いて、第1フォルマントの周波数を参照第1フォルマント周波数として取得することができる。具体的には、端末装置20は、対象ユーザAについて得られたサンプル音声信号に対して任意の既知の信号処理を実行することにより第1フォルマントの周波数を抽出することができる。
Next, in ST704, the
上述した第1の手法(ゼロ交差法を用いた手法)を用いる場合には、図9に示したフィルタ710A1~710AMの各々が、そのフィルタに固有の通過帯域として、第1フォルマントの周波数に対応する通過帯域を用い、計算部B1~710BMが、それぞれフィルタ710A1~710AMにより出力された信号を用いて、ゼロ交差法に基づいて第1フォルマントの周波数らしさを計算することができる。これにより、選択部710Cは、計算部B1~710BMにより計算された第1フォルマントの周波数らしさのうち、最も信頼できるものを選択し、このように選択した第1フォルマントの周波数らしさに対応する周波数をサンプル音声信号の第1フォルマントの周波数として出力することができる。
When the above-mentioned first method (method using the zero-crossing method) is used, each of the filters 710A 1 to 710A M shown in Fig. 9 uses a passband corresponding to the frequency of the first formant as a passband specific to that filter, and the calculation units B 1 to 710B M can calculate the frequency-likeness of the first formant based on the zero-crossing method using the signals output by the filters 710A 1 to 710A M. In this way, the
また、上述した第2の手法を用いる場合には、端末装置20は、サンプル音声信号に対して、例えば、以下の信号処理を施すことにより、基本周波数に加えて第1フォルマントの周波数をも抽出することができる。
・プリエンファシスフィルタにより波形の高域成分を強調
・窓関数を掛けた後に高速フーリエ逆変換(FFT)を行い振幅スペクトルを取得
・振幅スペクトルにメルフィルタバンクを掛けて圧縮
・上記圧縮した数値列を信号とみなして離散コサイン変換を実行
なお、この場合にも、端末装置20は、プログラミング言語であるPythonにおいて用意されたライブラリである「openSMILE」を用いること等により、基本周波数に加えて第1フォルマントの周波数をも算出することができる。
Furthermore, when the second technique described above is used, the
- Emphasis the high frequency components of the waveform using a pre-emphasis filter - After applying a window function, perform an inverse fast Fourier transform (FFT) to obtain the amplitude spectrum - Compress the amplitude spectrum by applying a Mel filter bank - Treat the compressed numeric sequence as a signal and perform a discrete cosine transform Even in this case, the
一実施形態では、発話開始時間から発話終了時間まで約10秒間のサンプル音声信号を複数の時間区間に分割し、各時間区間ごとに上述したいずれか既知の手法により第1フォルマントの周波数が算出され得る。これにより、第1フォルマントの周波数の最大値、最小値及び中央値が抽出され得る。このような第1フォルマントの周波数の最大値、最小値及び中央値を平均した値が、最終的な第1フォルマントの周波数(以下「参照第1フォルマント周波数」ということがある。)として取得され得る。別の実施形態では、上記のように抽出された第1フォルマントの周波数の最大値、最小値及び中央値のうち、いずれか1つの値が「参照第1フォルマント周波数」として抽出され得る。 In one embodiment, a sample speech signal of about 10 seconds from the speech start time to the speech end time is divided into a plurality of time intervals, and the frequency of the first formant can be calculated for each time interval by any of the known methods described above. This allows the maximum, minimum, and median values of the frequency of the first formant to be extracted. The average value of the maximum, minimum, and median values of the frequency of the first formant can be obtained as the final frequency of the first formant (hereinafter sometimes referred to as the "reference first formant frequency"). In another embodiment, any one of the maximum, minimum, and median values of the frequency of the first formant extracted as described above can be extracted as the "reference first formant frequency".
図8に戻り、次に、ST706において、端末装置20は、第2基準値を基準とした参照基本周波数の変化量を取得する。具体的には、対象ユーザAが男性である場合(対象ユーザAの性別は上述したST600において対象ユーザAにより入力されている)には、男性用の第2基準値は、例えば標準的な男性の声の第1フォルマントの周波数fF1として設定されているところ、端末装置20は、対象ユーザAの参照第1フォルマント周波数が、男性用の第2基準値からどれだけ(何formant)変化させたものであるかを算出することができる。対象ユーザAの参照基本周波数が男性用の第2基準値から何formant変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、1formantは1pitch/3であるという関係と、男性用の第2基準値と参照第1フォルマント周波数との差異(割合)と、に基づいて算出することが可能なものである。
Returning to Fig. 8, next, in ST706, the
一方、対象ユーザAが女性である場合には、女性用の第2基準値は、例えば標準的な女性の声の基本周波数fF2として設定されているところ、端末装置20は、対象ユーザAの参照第1フォルマント周波数が、女性用の第2基準値からどれだけ(何formant)変化させたものであるかを算出することができる。対象ユーザAの参照第1フォルマント周波数が女性用の第2基準値から何formant変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、1formantは1pitch/3であるという関係と、女性用の第2基準値と参照基本周波数との差異(割合)と、に基づいて算出することが可能なものである。
On the other hand, when the target user A is a woman, the second reference value for women is set as, for example, the fundamental frequency fF2 of a standard female voice, and the
他方、対象ユーザAが中性である場合には、中性用の第2基準値は、例えば標準的な女性の声の基本周波数fF3として設定されているところ、端末装置20は、対象ユーザAの参照第1フォルマント周波数が、中性用の第2基準値からどれだけ(何formant)変化させたものであるかを算出することができる。対象ユーザAの参照第1フォルマント周波数が中性用の第2基準値から何formant変化させたものであるかは、基本周波数を0.5倍すれば、基本周波数のpitchは8pitch(1オクターブ)減少し、基本周波数を2倍すれば、基本周波数のpitchは8pitch(1オクターブ)増加するという周波数とpitchとの関係と、1formantは1pitch/3であるという関係と、中性用の第2基準値と参照基本周波数との差異(割合)と、に基づいて算出することが可能なものである。
On the other hand, when the target user A is neutral, the second reference value for neutral is set as, for example, the fundamental frequency fF3 of a standard female voice, and the
次に、ST708において、端末装置20は、対象ユーザAの声と各音声変換プリセットに対応する声との距離を、ST702及びST706で取得した変化量を用いて取得することができる。具体的には、端末装置20は、まず、対象ユーザAの第1基準値を基準とした参照基本周波数の変化量、及び、対象ユーザAの第2基準値を基準とした参照第1フォルマント周波数の変化量をpf平面(2次元座標系)に配置する。さらに、端末装置20は、各音声変換プリセットにより定められる、第1基準値を基準とした基本周波数の変化量及び第2基準値を基準とした第1フォルマントの周波数の変化量を上記pf平面(2次元座標系)に配置する。
Next, in ST708, the
さらにまた、対象ユーザAの参照基本周波数の変化量及び第1フォルマントの周波数の変化量をそれぞれ(Up,Uf)とし、例えば3つの音声変換プリセットにより定められる基本周波数の変化量及び第1フォルマントの周波数の変化量を、それぞれ、(T1p,T1f)、(T2p,T2f)及び(T3p,T3f)とすると、端末装置20は、対象ユーザの声と3つの音声変換プリセットに対応する声との距離V1、V2及びV3は、それぞれ、ピタゴラスの定理を用いて次の数式により算出可能である。
Furthermore, if the amount of change in the reference fundamental frequency and the amount of change in the frequency of the first formant of the target user A are (U p , U f ), and the amount of change in the fundamental frequency and the amount of change in the frequency of the first formant determined by, for example, three voice conversion presets are (T 1p , T 1f ), (T 2p , T 2f ), and (T 3p , T 3f ), respectively, the
V1=√{(T1p-Up)2+(T1f-Uf)2} -(1)
V2=√{(T2p-Up)2+(T2f-Uf)2} -(2)
V3=√{(T3p-Up)2+(T3f-Uf)2} -(3)
V 1 = √{(T 1p -U p ) 2 + (T 1f -U f ) 2 } - (1)
V2 = √{( T2p - Up ) 2 + ( T2f - Uf ) 2 } - (2)
V3 = √{( T3p - Up ) 2 + ( T3f - Uf ) 2 } - (3)
なお、対象ユーザAが男性である場合には、対象ユーザAの参照基本周波数の変化量及び参照第1フォルマント周波数の変化量と、「男性用の」各音声変換プリセット(例えば図5Aに例示したAM、BM及びCM等)により定められる基本周波数の変化量及び第1フォルマントの周波数の変化量と、の距離が算出される。一方、対象ユーザAが女性である場合には、対象ユーザAの参照基本周波数の変化量及び参照第1フォルマント周波数の変化量と、「女性用の」各音声変換プリセット(例えば図5Bに例示したAF、BF及びCF等)により定められる基本周波数の変化量及び第1フォルマントの周波数の変化量と、の距離が算出される。他方、対象ユーザAが中性である場合には、対象ユーザAの参照基本周波数の変化量及び参照第1フォルマント周波数の変化量と、「中性用の」各音声変換プリセット(例えば図5Cに例示したAN、BN及びCN等)により定められる基本周波数の変化量及び第1フォルマントの周波数の変化量と、の距離が算出される。 In addition, when the target user A is male, the distance between the change amount of the reference fundamental frequency and the change amount of the reference first formant frequency of the target user A and the change amount of the fundamental frequency and the change amount of the first formant frequency determined by each voice conversion preset for "male" (e.g., A M , B M and C M as exemplified in FIG. 5A ) is calculated. On the other hand, when the target user A is female, the distance between the change amount of the reference fundamental frequency and the change amount of the reference first formant frequency of the target user A and the change amount of the fundamental frequency and the change amount of the first formant frequency determined by each voice conversion preset for "female" (e.g., A F , B F and C F as exemplified in FIG. 5B ) is calculated. On the other hand, when the target user A is neutral, the distance between the change amount of the reference fundamental frequency and the change amount of the reference first formant frequency of the target user A and the change amount of the fundamental frequency and the change amount of the first formant frequency determined by each voice conversion preset for "neutral" (e.g., A N , B N and C N as exemplified in FIG. 5C ) is calculated.
次に、ST710において、端末装置20は、ST708において取得した距離を、各音声変換プリセットに関連する情報に対応付けて表示部220に表示することができる。図10は、図1に示した通信システム1において端末装置20の表示部220により表示される画面の一例を示す図である。
Next, in ST710, the
図10に示すように、端末装置20は、各音声変換プリセット(各キャラクター)ごとに、キャラクターに対応する画像又は写真、キャラクターに対応する名称、プリセット番号に対応付けて、その音声変換プリセットに対応する声と対象ユーザAの声との距離を表示することができる。例えば、端末装置20は、キャラクター720A4を例に挙げると、そのキャラクターに対応する写真、そのキャラクターに対応する名称(「俳優」)、プリセット番号(「P59」)、及び、その音声変換プリセット(「P59」)に対応する声と対象ユーザAの声との距離(「55」)を表示することができる。これにより、対象ユーザAは、複数の音声変換プリセットのうち、いずれの音声変換プリセットに対応する声が自分の声に近いのかを認識することができる。なお、図10に示した例では、距離として「12」が表示されたキャラクター720A1に対応する声が対象ユーザAの声に最も近いということが理解される。
As shown in FIG. 10, the
なお、図10には、端末装置20が、複数の音声変換プリセットのうち、対象ユーザAの声との距離が所定値(ここでは「100」)未満である少なくとも1つの(ここでは5つの)音声変換プリセットを、対象ユーザAの声に近い特徴を有する音声変換プリセットとして表示している。この所定値は、端末装置20の表示部の解像度等を含む様々な条件に応じて、任意に設定可能なものである。これに代えて又はこれに加えて、端末装置20は、複数の音声変換プリセットのうち、対象ユーザAとの距離が別の所定値を上回る少なくとも1つの音声変換プリセットを、対象ユーザAの声から「遠い」特徴を有する音声変換プリセットとして表示することも可能である。これにより、対象ユーザAは、自己にとって意外性のある音声変換プリセットを提示されることにより、当該サービスをさらに楽しむことができる。
In FIG. 10, the
さらにまた、表示部220に表示されるその音声変換プリセットに対応する声と対象ユーザAの声との距離は、上述した数式(1)~(3)等により算出された値そのものであってもよいし、このように算出された値に対して更なる任意の計算が施されたものであってもよい。
なお、図8には、一例として、ST700において基本周波数(参照基本周波数)を取得して、ST702においてそれぞれ参照基本周波数の変化量を取得した後、ST704において参照フォルマント周波数を取得し、ST706において参照フォルマント周波数の変化量を取得する場合について説明した。別の例として、ST700において、参照基本周波数及び参照フォルマント周波数(逆の順序でもよい)を順次取得した後、その後のステップにおいて、参照基本周波数の変化量及び参照フォルマント周波数の変化量(逆の順序でもよい)を順次取得することも可能である。
いずれの場合においても、F0推定("Harvest: A High-Performance Fundamental Frequency Estimator from Speech Signals", Masanori Morise, Interspeech 2017, https://www.isca-speech.org/archive/Interspeech_2017/abstracts/0068.html)、スペクトル包絡推定法(M. Morise, CheapTrick, a spectral envelope estimator for high-quality speech synthesis, Speech Communication, vol. 67, pp. 1-7, March 2015, http://www.sciencedirect.com/science/article/pii/S0167639314000697)、(M. Morise, Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error, IEICE transactions on information and systems, vol. E98-D, no. 7, pp. 1405-1408, July 2015)、音声パラメータのデザイン(https://www.jstage.jst.go.jp/article/jasj/74/11/74_608/_pdf)、及び、音声分析合成(p.118-122, https://www.amazon.co.jp/%E9%9F%B3%E5%A3%B0%E5%88%86%E6%9E%90%E5%90%88%E6%88%90-%E9%9F%B3%E9%9F%BF%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA-22-%E6%A3%AE%E5%8B%A2-%E5%B0%86%E9%9B%85/dp/4339011371/ref=asc_df_4339011371/?tag=jpgo-22&linkCode=df0&hvadid=288872634447&hvpos=1o1&hvnetw=g&hvrand=13207960527415520975&hvpone=&hvptwo=&hvqmt=&hvdev=c&hvdvcmdl=&hvlocint=&hvlocphy=1028853&hvtargid=pla-527203759435&psc=1&th=1&psc=1)を含む文献等に記載された任意の技術を用いて、参照基本周波数及び/又は参照フォルマント周波数を取得することが可能である。
なお、これらの文献等は、引用によりその全体が本明細書に組み入れられる。
Furthermore, the distance between the voice corresponding to the voice conversion preset displayed on the
8 has been described as an example in which a fundamental frequency (reference fundamental frequency) is acquired in ST700, the amount of change in the reference fundamental frequency is acquired in ST702, the reference formant frequency is acquired in ST704, and the amount of change in the reference formant frequency is acquired in ST706. As another example, it is also possible to sequentially acquire the reference fundamental frequency and the reference formant frequency (the order may be reversed) in ST700, and then sequentially acquire the amount of change in the reference fundamental frequency and the amount of change in the reference formant frequency (the order may be reversed) in the subsequent steps.
In both cases, the F0 estimation ("Harvest: A High-Performance Fundamental Frequency Estimator from Speech Signals", Masanori Morise, Interspeech 2017, https://www.isca-speech.org/archive/Interspeech_2017/abstracts/0068.html), the spectral envelope estimation (M. Morise, CheapTrick, a spectral envelope estimator for high-quality speech synthesis, Speech Communication, vol. 67, pp. 1-7, March 2015, http://www.sciencedirect.com/science/article/pii/S0167639314000697), and the F0 estimation (M. Morise, Error evaluation of an F0-adaptive spectral envelope estimator in robustness against the additive noise and F0 error, IEICE transactions on information and systems, vol. E98-D, no. 7, pp. 1405-1408, July 2016) are used. 2015), Voice Parameter Design (https://www.jstage.jst.go.jp/article/jasj/74/11/74_608/_pdf), and Voice Analysis and Synthesis (p.118-122, https://www.amazon.co.jp/%E9%9F%B3%E5%A3%B0%E5%88%86%E6%9E%90%E5%90%88%E6%88%90-%E9%9F%B3%E9%9F%BF%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC%E3%82%B7%E3%83%AA%E3%83%BC%E3%82%BA-22-%E6%A3%AE%E5%8B%A2-%E5%B0%86%E9%9B%85/dp/4339011371/ref=asc_df_433901137 1/?tag=jpgo-22&linkCode=df0&hvadid=288872634447&hvpos=1o1&hvnetw=g&hvrand=13207960527415520975&hvpone=&hvptwo=&hvqmt=&hvdev=c&hvdvcmdl=&hvlocint=&hvlocphy=1028853&hvtargid=pla-527203759435&psc=1&th=1&psc=1).
These documents are incorporated herein by reference in their entirety.
以上、図6に示したST602において行われる動作について、図8を用いて説明した。 The operations performed in ST602 shown in Figure 6 have been explained above using Figure 8.
図6に戻り、ST604において、端末装置20は、複数の音声変換プリセットのうち、ST602において抽出された、対象ユーザAの声との距離が所定値未満である少なくとも1つの音声変換プリセットに基づいて、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットを取得する。ST604において行われる動作について、図11及び図12を参照して説明する。図11は、図1に示した通信システム1において各ユーザとそのユーザの声との距離が所定値未満である少なくとも1つの音声変換プリセットとを対応付けて記憶する情報の一例を示す図である。図12は、図1に示した通信システムにおいて各ユーザとそのユーザにより過去に使用された少なくとも1つの音声変換プリセットとを対応付けて記憶する情報の一例を示す図である。
Returning to FIG. 6, in ST604, the
端末装置20は、各ユーザ(例えばユーザU1~ユーザUN)に対してそのユーザの声との距離が所定値未満である音声変換プリセットが対応付けられた図11に例示されるような情報を、例えばサーバ装置30から受信することにより取得することができる。かかる情報は、例えば、各ユーザの端末装置20が、図6におけるST700~ST708において説明した処理を行い、そのユーザの声との距離が所定値未満である少なくとも1つの音声変換部リセットをサーバ装置30に通知することにより、サーバ装置30により生成可能なものである。
The
ここで、対象ユーザAがユーザU2であるとする。対象ユーザAの端末装置20は、上記情報において、対象ユーザA(ユーザU2)に対して選択された音声変換プリセットP3、P15、P33、P40、P72のうちのいずれかと同一の音声変換プリセットに対応付けられた少なくとも1人のユーザを、対象ユーザAに類似する声を有する少なくとも1人の類似ユーザとして選択することができる。この例では、対象ユーザAの端末装置20は、音声変換プリセットP3に対応付けられたユーザU4、及び、音声変換プリセットP33に対応付けられたユーザU1を、対象ユーザAに類似する声を有する少なくとも1人の類似ユーザとして選択することができる。
Here, it is assumed that the target user A is user U2 . The
次に、端末装置20は、各ユーザに対してそのユーザにより過去に使用された音声変換プリセットが対応付けられた図12に例示されるような情報を、例えばサーバ装置30から受信することにより取得することができる。かかる情報は、例えば、各ユーザの端末装置20が、新たな音声変換プリセットを通信システム1において又は他の通信システム(他のホームページ及びSNSサイト等を含む)において使用する度に、そのように使用した音声変換プリセットをサーバ装置30に通知することにより、サーバ装置30により生成可能なものである。
Next, the
次に、端末装置20は、図12に例示された情報に基づいて、少なくとも1つの類似ユーザにより過去に使用された少なくとも1つの音声変換プリセット、すなわち、ユーザU1により過去に使用された少なくとも1つの音声変換プリセット(ここでは音声変換プリセットP5、P60、P72及びP99のうちの少なくとも1つ)、及び、ユーザU4により過去に使用された少なくとも1つの音声変換プリセット(ここでは音声変換プリセットP1、P18、P36、P105、P250のうちの少なくとも1つ)を、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択することができる。
Next, based on the information illustrated in FIG. 12, the
一実施形態では、端末装置20は、ユーザU1により過去に使用されたすべての音声変換プリセット(ここでは音声変換プリセットP5、P60、P72及びP99のすべて)、及び、ユーザU4により過去に使用されたすべての音声変換プリセット(ここでは音声変換プリセットP1、P18、P36、P105、P250のすべて)を、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択してもよい。
In one embodiment, the
別の実施形態では、端末装置20は、ユーザU1により過去に使用された音声変換プリセット(ここでは音声変換プリセットP5、P60、P72及びP99)のうち、少なくとも1人のユーザにより良い評価が与えられた少なくとも1つの音声変換プリセット、及び、ユーザU4により過去に使用された音声変換プリセット(ここでは音声変換プリセットP1、P18、P36、P105、P250)のうち、少なくとも1人のユーザにより良い評価を与えられた少なくとも1つの音声変換プリセットを、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択してもよい。
In another embodiment, the
この場合、あるユーザ(ここでは説明を簡単にするために例えば上記ユーザU1とする)により過去に使用された音声変換プリセットのうち、少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいて良い評価が与えられた音声変換プリセットとは、(i)ユーザU1本人又は他の少なくとも1人のユーザにより購入された音声変換プリセット、(ii)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいてレビューが作成された音声変換プリセット、(iii)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいてシェアされた音声変換プリセット、(iv)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいて参照された音声変換プリセット、及び/又は、(v)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいて再生された音声変換プリセットを、これらに限定することなく含むことができる。これを実現するために、サーバ装置30は、各ユーザに対して、そのユーザにより過去に使用された音声変換プリセットを対応付けるだけでなく、そのように過去に使用された音声変換プリセットの各々に対して上記(i)~(v)に関する情報を対応付けて記憶する情報を用意及び更新しておき、かかる情報を各端末装置20に送信することができる。
In this case, among the voice conversion presets used in the past by a certain user (for the sake of simplicity, let us assume that the user is user U1 ), voice conversion presets that have been given good reviews on a website and/or SNS by at least one user may include, without being limited to, (i) voice conversion presets purchased by user U1 himself or at least one other user, (ii) voice conversion presets for which reviews have been written on a website and/or SNS by user U1 himself or at least one other user, (iii) voice conversion presets shared on a website and/or SNS by user U1 himself or at least one other user, (iv) voice conversion presets referenced on a website and/or SNS by user U1 himself or at least one other user, and/or (v) voice conversion presets played on a website and/or SNS by user U1 himself or at least one other user. To achieve this, the
さらに別の実施形態では、端末装置20が、あるユーザ(ここでは説明を簡単にするために例えば上記ユーザU1とする)により過去に使用された音声変換プリセットの各々に対して、(a)ユーザU1本人又は他の少なくとも1人のユーザにより購入された回数に比例する係数、(b)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいてレビューが作成された回数に比例する係数、(c)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいてシェアされた回数に比例する係数、(d)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいて参照された回数に比例する係数、(e)ユーザU1本人又は他の少なくとも1人のユーザによりウェブサイト及び/又はSNSにおいて再生された回数に比例する係数、のうちの少なくとも1つの係数を掛けた値が大きいものを優先的に、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択することができる。
In yet another embodiment, the
さらに別の実施形態では、端末装置20は、ユーザU1により過去に使用された音声変換プリセット(ここでは音声変換プリセットP5、P60、P72及びP99)のうち、少なくとも1人のユーザにより悪い評価が与えられた少なくとも1つの音声変換プリセット、及び、ユーザU4により過去に使用された音声変換プリセット(ここでは音声変換プリセットP1、P18、P36、P105、P250)のうち、少なくとも1人のユーザにより悪い評価を与えられた少なくとも1つの音声変換プリセットを、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして「選択しない」ようにしてもよい。
In yet another embodiment, the
さらにまた、別の実施形態では、端末装置20は、少なくとも1人の類似ユーザにより過去に使用された音声変換プリセットのうち、協調フィルタリングを用いて選択された少なくとも1つの音声変換プリセットを、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択してもよい。図13は、図1に示した通信システムにおいて、少なくとも1人の類似ユーザにより過去に使用された音声変換プリセットのうち、協調フィルタリングを用いて、対象ユーザに推奨すべき音声変換プリセットを選択する方法の一例を示す図である。
Furthermore, in another embodiment, the
図13には、対象ユーザAに類似する声を有する少なくとも1人の類似ユーザとして、一例として、3人の類似ユーザU20、U30、U40が示されている。これら3人の類似ユーザのすべてによって過去に使用された音声変換プリセットとして、音声変換プリセットP20、P25、P32が例示されている。類似ユーザU20は、音声変換プリセットP20、P25、P32に対して、それぞれ、5点、3点及び5点という評価(但し5点満点)を与えている。類似ユーザU20は、音声変換プリセットP20、P25、P32に対して、それぞれ、2点、5点及び2点という評価を与えている。類似ユーザU30は、音声変換プリセットP20、P25、P32に対して、それぞれ、2点、5点及び2点という評価を与えている。類似ユーザU40は、音声変換プリセットP20、P25、P32に対して、それぞれ、5点、2点及び5点という評価を与えている。 In Fig. 13, three similar users U20 , U30 , and U40 are shown as examples of at least one similar user having a voice similar to that of the target user A. Voice conversion presets P20 , P25 , and P32 are shown as voice conversion presets used in the past by all of these three similar users. The similar user U20 gives the voice conversion presets P20 , P25 , and P32 ratings of 5 points, 3 points, and 5 points (out of 5), respectively. The similar user U20 gives the voice conversion presets P20, P25, and P32 ratings of 2 points, 5 points, and 2 points, respectively. The similar user U30 gives the voice conversion presets P20 , P25 , and P32 ratings of 2 points, 5 points, and 2 points, respectively. The similar user U 40 gives ratings of 5 points, 2 points and 5 points to the voice conversion presets P 20 , P 25 and P 32 , respectively.
ここで、対象ユーザAが、図13に例示されているように音声変換プリセットP32に対して5点という高い評価を与えている場合には、端末装置20は、同一の音声変換プリセットP32に対して高い評価を与えている類似ユーザU20及びU40に着目し、これらの類似ユーザによって同様に高い評価(ここでは5点)が与えられている音声変換プリセットP20を、対象ユーザAに推奨すべき音声変換プリセットとして選択することができる。よって、図13において、対象ユーザAの列において音声変換プリセットP20に対応する行には、推奨することを意味する記号(◎)が付されている。
Here, when the target user A gives a high rating of 5 points to the voice conversion preset P32 as illustrated in Fig. 13, the
さらに、次に、対象ユーザBに着目すると、対象ユーザBが、図13に例示されているように音声変換プリセットP25に対して4点という高い評価を与えている場合には、端末装置20は、同一の音声変換プリセットP25に対して高い評価を与えている類似ユーザU30に着目し、この類似ユーザU30によって低い評価(ここでは2点)が与えられている音声変換プリセットP20、P32を、対象ユーザBに推奨すべき音声変換プリセットとして「選択しない」ようにすることができる。よって、図13において、対象ユーザBの列において音声変換プリセットP20、P32に対応する行には、推奨しないことを意味する記号(×)が付されている。
Furthermore, next, when the target user B is focused on, if the target user B gives a high rating of 4 points to the voice conversion preset P25 as illustrated in Fig. 13, the
図13に示した例において、類似ユーザ又は対象ユーザによって高い評価が与えられた音声プリセットは、上述した(i)~(v)のうちの少なくとも1つの音声変換プリセットを含むことができ、類似ユーザ又は対象ユーザによって低い評価が与えられた音声プリセットは、上述した(i)~(v)に反する少なくとも1つの音声変換プリセットを含むことができる。 In the example shown in FIG. 13, the voice presets that have been given high ratings by similar users or the target user may include at least one of the voice conversion presets (i) to (v) described above, and the voice presets that have been given low ratings by similar users or the target user may include at least one voice conversion preset that contradicts (i) to (v) described above.
なお、端末装置20は、少なくとも1人の類似ユーザにより過去に使用された音声変換プリセットのうち、図13を参照して上述したもの以外のその他の任意の協調フィルタリングを用いて選択された少なくとも1つの音声変換プリセットを、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして選択してもよい。
In addition, the
以上、図6に示したST604において行われる動作について説明した。 The above explains the operations performed in ST604 shown in Figure 6.
次に、図6に戻り、ST606において、端末装置20は、上述したST604において取得した少なくとも1つの推奨すべき音声変換プリセットを対象ユーザAに提示する。図14は、図1に示した通信システムにおいて端末装置20の表示部220により表示される画面の別の例を示す図である。
Next, returning to FIG. 6, in ST606, the
図14には、対象ユーザAに推奨すべき少なくとも1つの音声変換プリセットとして、5つのプリセット800A~800Eが表示部220に表示される例が示されている。音声変換プリセット800A~800Eの各々は、その音声変換プリセットに関連する情報(例えば、キャラクターに対応する画像又は写真、キャラクターに対応する名称、プリセット番号等)とともに表示され得る。
FIG. 14 shows an example in which five
さらに、音声変換プリセット800A~800Eの各々は、その音声変換プリセットの価値を示す少なくとも1つの情報とともに表示され得る。図14には、音声変換プリセットの価値を示す少なくとも1つの情報として、その音声変換プリセットの価格、再生可能回数、再生可能時間及び同時使用人数が表示される例が示されている。別の実施形態では、これらの情報のうちの少なくとも1つの情報が表示されるようにしてもよい。
Furthermore, each of the
音声変換プリセットの価格が高い(又は低い)ことは、その音声変換プリセットの価値が高い(又は低い)ことを意味する。 A higher (or lower) price for an audio conversion preset means that the audio conversion preset is more (or less) valuable.
音声変換プリセットの再生可能回数とは、その音声変換プリセットを再生可能な回数の上限を意味する。音声変換プリセットの再生可能回数が少ない(又は多い)ことは、その音声変換プリセットの価値が高い(又は低い)ことを意味する。 The number of times an audio conversion preset can be played means the maximum number of times that audio conversion preset can be played. A low (or high) number of times that an audio conversion preset can be played means that the audio conversion preset is of high (or low) value.
音声変換プリセットの再生可能時間とは、その音声変換プリセットを再生可能な時間の上限を意味する。音声変換プリセットの再生可能時間が短い(又は長い)ことは、その音声変換プリセットの価値が高い(又は低い)ことを意味する。 The playback time of an audio conversion preset means the maximum time that the audio conversion preset can be played. A short (or long) playback time of an audio conversion preset means that the value of the audio conversion preset is high (or low).
音声変換プリセットの同時使用人数とは、その音声変換プリセットを同時に使用(再生)することができる人数の上限を意味する。音声変換プリセットの同時使用人数が少ない(又は多い)ことは、その音声変換プリセットの価値が高い(又は低い)ことを意味する。 The number of simultaneous users of an audio conversion preset refers to the maximum number of people who can use (play) that audio conversion preset at the same time. A low (or high) number of simultaneous users of an audio conversion preset means that the value of that audio conversion preset is high (or low).
例えば、価格に着目すると、音声変換プリセット800Aの価値(400円)は、音声変換プリセット800B(200円)の2倍高いといえる。次に、再生可能回数に着目すると、音声変換プリセット800Aの価値(10回)は、音声変換プリセット800B(20回)の2倍高いといえる。さらに、再生可能時間に着目すると、音声変換プリセット800Aの価値(10分)は、音声変換プリセット800B(20分)の2倍高いといえる。また、同時使用人数に着目すると、音声変換プリセット800Aの価値(1人)は、音声変換プリセット800B(2人)の2倍高いといえる。 For example, when focusing on price, the value of voice conversion preset 800A (400 yen) is twice as high as that of voice conversion preset 800B (200 yen). Next, when focusing on the number of times it can be played, the value of voice conversion preset 800A (10 times) is twice as high as that of voice conversion preset 800B (20 times). Furthermore, when focusing on the amount of time it can be played, the value of voice conversion preset 800A (10 minutes) is twice as high as that of voice conversion preset 800B (20 minutes). Also, when focusing on the number of people using it at the same time, the value of voice conversion preset 800A (1 person) is twice as high as that of voice conversion preset 800B (2 people).
このような音声変換プリセット(通信システム1において用いられるすべての音声変換プリセット)の各々の価値は、以下の5つの係数のうちの少なくとも1つの係数を掛けることにより定められるようにしてもよい。
(1)いずれかのユーザ、複数のユーザ又はすべてのユーザにより購入された回数に比例する係数、
(2)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいてレビューが作成された回数に比例する係数、
(3)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいてシェアされた回数に比例する係数、
(4)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいて参照された回数に比例する係数、
(5)いずれかのユーザ、複数のユーザ又はすべてのユーザウェブサイト及び/又はSNSにおいて再生された回数に比例する係数。
The value of each of such voice conversion presets (all voice conversion presets used in the communication system 1) may be determined by multiplying it by at least one of the following five coefficients:
(1) a coefficient proportional to the number of purchases made by any user, multiple users, or all users;
(2) a coefficient proportional to the number of reviews created on the website and/or social networking site by any user, some users, or all users;
(3) a coefficient proportional to the number of times the content is shared on websites and/or social media by any user, multiple users, or all users;
(4) a coefficient proportional to the number of times the website and/or social networking site was referenced by any user, multiple users, or all users;
(5) A coefficient proportional to the number of times the video was played by any user, by multiple users, or by all users' websites and/or social media.
これを実現するために、サーバ装置30は、各音声変換プリセットに対して、上記(1)~(5)のうちの少なくとも1つの係数を対応付けて記憶する情報を、保持及び更新し、必要に応じて各端末装置20に送信することができる。
To achieve this, the
端末装置20は、図14に例示されたように推奨された少なくとも1つの音声変換プリセットのうち、対象ユーザAによりユーザインタフェイスを介して選択された音声変換プリセットについて、その音声変換プリセットにより定められる、第1基準値を基準とした基本周波数の変化量及び第2基準値を基準とした第1フォルマントの周波数の変化量を、記憶部216から読み出すことにより取得することができる。或いはまた、端末装置20は、このように対象ユーザAにより選択された音声変換プリセットについて、その音声変換プリセットにより定められる、第1基準値を基準とした基本周波数の変化量及び第2基準値を基準とした第1フォルマントの周波数の変化量を、端末装置20による要求に応答したサーバ装置30から受信して取得することができる。
The
図6に戻り、次に、ST608において、端末装置20は、上述したST606において取得した音声変換プリセットを用いて、音声入力部210により入力された音声信号(入力音声信号)を変換することにより、出力音声信号を生成することができる。具体的には、端末装置20は、例えば次に述べるような処理を行うことにより、出力音声信号を生成することができる。
Returning to FIG. 6, next, in ST608, the
まず、端末装置20(の特徴量抽出部212)が、ST700において説明したものと同様の手法により、入力音声信号から基本周波数を抽出し、ST704において説明したものと同様の手法により、第1フォルマントの周波数を抽出する。 First, the terminal device 20 (feature extraction unit 212) extracts the fundamental frequency from the input speech signal using a method similar to that described in ST700, and extracts the frequency of the first formant using a method similar to that described in ST704.
次に、端末装置20(の特徴量変換部222)が、上記のように抽出した入力音声信号の基本周波数を、ST606において取得した音声変換プリセットにより定められる基本周波数の変化量に応じて変換(シフト、すなわち、増加又は減少)し、かつ、上記のように抽出した入力音声信号の第1フォルマントの周波数を、ST606において取得した音声変換プリセットにより定められる第1フォルマントの周波数の変化量に応じて変換(シフト、すなわち、増加又は減少)する。 Next, the terminal device 20 (the feature conversion unit 222) converts (shifts, i.e., increases or decreases) the fundamental frequency of the input audio signal extracted as described above in accordance with the amount of change in the fundamental frequency determined by the voice conversion preset acquired in ST606, and converts (shifts, i.e., increases or decreases) the frequency of the first formant of the input audio signal extracted as described above in accordance with the amount of change in the frequency of the first formant determined by the voice conversion preset acquired in ST606.
次に、端末装置20(の音声合成部224)は、特徴量変換部222により変換された基本周波数及び第1フォルマントの周波数を用いて、音声合成処理を行うことにより、入力音声信号を加工した音声信号(出力音声信号)を生成することができる。変換された基本周波数及び第1フォルマントの周波数を用いて音声を合成する処理は、周知技術である様々な手法を用いて実行することが可能なものである。
Next, the terminal device 20 (the voice synthesis unit 224) can perform voice synthesis processing using the fundamental frequency and the first formant frequency converted by the
次に、ST610において、端末装置20(の通信部218)は、生成された出力音声信号をサーバ装置30に送信することができる。さらに、ST612において、サーバ装置30は、端末装置20から受信した出力音声信号を、他の端末装置20に配信することも可能である。
Next, in ST610, the terminal device 20 (the communication unit 218) can transmit the generated output audio signal to the
以上、通信システム1において行われる動作の具体例について説明した。
The above describes specific examples of operations performed in
6.変形例
上述した様々な実施形態では、最も好ましい態様として、対象ユーザの発話に基づく音声信号に対する信号処理により、特徴量として基本周波数及び第1フォルマントの周波数を取得する場合について説明した。しかし、別の実施形態では、特徴量として基本周波数のみを参照基本周波数として抽出するようにしてもよい。この場合、対象ユーザの声と各音声変換プリセットに対応する声との距離は、第1基準値を基準とした参照基本周波数の変化量と、各音声変換プリセットにより定められる第1基準値を基準とした基本周波数の変化量と、の差に基づいて算出することが可能である。
6. Modifications In the various embodiments described above, as the most preferred embodiment, the fundamental frequency and the frequency of the first formant are obtained as features by signal processing of the voice signal based on the speech of the target user. However, in another embodiment, only the fundamental frequency may be extracted as a feature as a reference fundamental frequency. In this case, the distance between the voice of the target user and the voice corresponding to each voice conversion preset can be calculated based on the difference between the amount of change in the reference fundamental frequency based on the first reference value and the amount of change in the fundamental frequency based on the first reference value determined by each voice conversion preset.
また、上述した実施形態では、図6等を参照して、入力音声信号の入力(ST600)、参照基本周波数の取得(ST700)、参照基本周波数の変化量の取得(ST702)、参照第1フォルマント周波数の取得(ST704)、参照第1フォルマント周波数の取得(706)、距離の取得(ST708)及びレコメンドすべき音声変換プリセットの取得(ST604)が、すべて対象ユーザの端末装置20により実行される場合について説明した。しかし、別の実施形態では、入力音声信号の入力(ST600)のみが対象ユーザの端末装置20により実行され、残りの工程がサーバ装置30により及び/又はサーバ装置30に接続される他のユーザの端末装置により実行されるようにしてもよい。この場合、取得した距離を各音声変換プリセットに関連する情報と対応付けて表示すること(ST710)及び音声変換プリセットの表示(ST606)は、依然として、対象ユーザの端末装置20により実行されるようにしてもよい。
In the above embodiment, with reference to FIG. 6 and the like, the input of the input voice signal (ST600), acquisition of the reference fundamental frequency (ST700), acquisition of the change amount of the reference fundamental frequency (ST702), acquisition of the reference first formant frequency (ST704), acquisition of the reference first formant frequency (706), acquisition of the distance (ST708), and acquisition of the voice conversion preset to be recommended (ST604) are all performed by the
さらに、上述した実施形態では、対象ユーザにより選択された音声変換プリセットを用いた入力音声信号の変換(S608)が、対象ユーザの端末装置20により実行され、その変換により生成された出力音声信号が端末装置20によりサーバ装置30に送信される(ST610)場合について説明した。しかし、別の実施形態では、対象ユーザにより選択された音声変換プリセットを用いた入力音声信号の変換(S608)が、サーバ装置30により実行され、ST610に代えて、その変換により生成された出力音声信号がサーバ装置30により対象ユーザの端末装置20に送信される工程が実行されるようにしてもよい。
Furthermore, in the above-described embodiment, the conversion of the input voice signal using the voice conversion preset selected by the target user (S608) is performed by the
以上のように、様々な実施形態によれば、対象ユーザの声と各音声変換プリセットに対応する声との距離が、第1基準値を基準とした参照基本周波数の変化量及び第2基準値を基準とした参照第1フォルマント周波数の変化量(又は、第1基準値を基準とした参照基本周波数の変化量のみ)と、各音声変換プリセットにより定められる第1基準値を基準とした基本周波数の変化量及び第2基準値を基準とした第1フォルマントの周波数の変化量(又は、各音声変換プリセットにより定められる第1基準値を基準とした基本周波数の変化量のみ)とに基づいて算出され、対象ユーザに提示される。これにより、対象ユーザは、通信システム1において用意された複数の音声変換プリセットにおいて自己の声に近い特徴を有する音声変換プリセットとしてどのようなものが存在するのかを認識することができる。これにより、対象ユーザは、自己の声が例えば有名な芸能人の声や有名なキャラクター(声優)の声に近いことを発見することにより、当該通信システムにより提供されるサービスを楽しむことができる。
As described above, according to various embodiments, the distance between the target user's voice and the voice corresponding to each voice conversion preset is calculated based on the amount of change in the reference fundamental frequency based on the first reference value and the amount of change in the reference first formant frequency based on the second reference value (or only the amount of change in the reference fundamental frequency based on the first reference value), and the amount of change in the fundamental frequency based on the first reference value determined by each voice conversion preset and the amount of change in the frequency of the first formant based on the second reference value (or only the amount of change in the fundamental frequency based on the first reference value determined by each voice conversion preset), and is presented to the target user. This allows the target user to recognize what voice conversion presets have characteristics similar to his/her own voice among the multiple voice conversion presets prepared in the
さらに、対象ユーザの声に近い特徴を有する音声変換プリセットが取得された際に、これと同一の音声変換プリセットに対応付けられた少なくとも1人の類似ユーザが選択され、当該類似ユーザにより過去に使用された少なくとも1つの音声変換プリセットが、推奨すべき音声変換プリセットとして対象ユーザに対して提供される。一般的に、予め用意された複数の音声変換プリセットのうち、いずれの音声変換プリセットが対象ユーザにとって品質の高い(満足される)ものであるかを認識することは容易ではない。しかし、上述した様々な実施形態では、対象ユーザに似通った声を有する類似ユーザにより過去に使用された(さらにはこの類似ユーザ又は他のユーザにより高い評価が与えられた)音声変換プリセットが、推奨すべき音声変換プリセットとして対象ユーザに提示されることにより、品質の高い音声変換プリセットが対象ユーザに提供される可能性を高めることができる。 Furthermore, when a voice conversion preset having characteristics similar to the target user's voice is acquired, at least one similar user associated with the same voice conversion preset is selected, and at least one voice conversion preset used in the past by the similar user is provided to the target user as a voice conversion preset to be recommended. In general, it is not easy to recognize which of a plurality of voice conversion presets prepared in advance is of high quality (satisfying) to the target user. However, in the various embodiments described above, a voice conversion preset that has been used in the past by a similar user having a voice similar to the target user (and has been highly rated by this similar user or other users) is presented to the target user as a voice conversion preset to be recommended, thereby increasing the possibility that a high-quality voice conversion preset will be provided to the target user.
また、予め用意された複数の音声変換プリセットの各々の品質が十分であるかどうかを判定することは、一般的に容易ではない。様々な実施形態では、各音声変換プリセットに対応付けて以下の5つの係数のうちの少なくとも1つの係数が記憶された情報が用意され更新される。
(1)いずれかのユーザ、複数のユーザ又はすべてのユーザにより購入された回数に比例する係数、
(2)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいてレビューが作成された回数に比例する係数、
(3)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいてシェアされた回数に比例する係数、
(4)いずれかのユーザ、複数のユーザ又はすべてのユーザによりウェブサイト及び/又はSNSにおいて参照された回数に比例する係数、
(5)いずれかのユーザ、複数のユーザ又はすべてのユーザウェブサイト及び/又はSNSにおいて再生された回数に比例する係数。
これにより、各音声変換プリセットに対する様々なユーザの反応に基づいて各音声変換プリセットが評価されることにより、各音声変換プリセットの価値が客観的に把握され得る。
In addition, it is generally not easy to determine whether the quality of each of the multiple voice conversion presets prepared in advance is sufficient. In various embodiments, information is prepared and updated in which at least one of the following five coefficients is stored in association with each voice conversion preset.
(1) a coefficient proportional to the number of purchases made by any user, multiple users, or all users;
(2) a coefficient proportional to the number of reviews created on the website and/or social networking site by any user, some users, or all users;
(3) a coefficient proportional to the number of times the content is shared on websites and/or social media by any user, multiple users, or all users;
(4) a coefficient proportional to the number of times the website and/or social networking site was referenced by any user, multiple users, or all users;
(5) A coefficient proportional to the number of times the video was played by any user, by multiple users, or by all users' websites and/or social media.
This allows each voice conversion preset to be evaluated based on various users' reactions to each voice conversion preset, so that the value of each voice conversion preset can be objectively grasped.
したがって、様々な実施形態によれば、ユーザに適したボイスチェンジャを提供することが可能な手法を提供することができる。 Therefore, according to various embodiments, a method can be provided that can provide a voice changer that is suitable for the user.
7.本件出願に開示された技術が適用される分野
本件出願に開示された技術は、例えば、次のような分野において適用することが可能なものである。
(1)音声及び/又は動画を通信網及び/又は放送網を介して配信するアプリケーション・サービス
(2)音声を用いてコミュニケーションすることができるアプリケーション・サービス(チャットアプリケーション、メッセンジャー、メールアプリケーション等)
(3)ユーザの音声を送信することが可能なゲーム・サービス(シューティングゲーム、恋愛ゲーム及びロールプレイングゲーム等)
7. Fields in which the technology disclosed in the present application is applicable The technology disclosed in the present application can be applied, for example, in the following fields.
(1) Application services that distribute audio and/or video via communication networks and/or broadcasting networks. (2) Application services that enable communication using audio (chat applications, messengers, email applications, etc.).
(3) Games and services that allow users to transmit their voice (shooting games, romance games, role-playing games, etc.)
1 通信システム
10 通信網
20(20A~20C) 端末装置
30(30A~30C) サーバ装置
40(40A、40B) スタジオユニット
210、310 音声入力部
212、312 特徴量抽出部
214、314 変換器取得部
216、316 記憶部
218、318 通信部
220、320 表示部
222、322 特徴量変換部
224、324 音声合成部
REFERENCE SIGNS
Claims (27)
対象ユーザによる発話に基づく音声信号に対する信号処理により算出される基本周波数を参照基本周波数として取得し、
第1所定値を基準とした前記参照基本周波数の変化量を取得し、
各々が、前記第1所定値を基準とした基本周波数の変化量を定め、前記対象ユーザによる発話に基づく音声信号を変換するために用いられる、複数の音声変換プリセットを取得し、
前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との間の距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する、ように前記プロセッサを機能させる、ことを特徴とするコンピュータプログラム。 When executed by at least one processor,
A fundamental frequency calculated by signal processing of a voice signal based on an utterance by a target user is obtained as a reference fundamental frequency;
Obtaining an amount of change in the reference fundamental frequency based on a first predetermined value ;
obtaining a plurality of voice conversion presets, each of which determines an amount of change in a fundamental frequency relative to the first predetermined value and is used to convert a voice signal based on speech by the target user;
A computer program that causes the processor to function to calculate a distance between a voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user based on an amount of change in the fundamental frequency and an amount of change in the reference fundamental frequency determined by the voice conversion preset.
前記対象ユーザによる発話に基づく音声信号に対する信号処理により算出されるフォルマントの周波数を参照フォルマント周波数として取得し、
第2所定値を基準とした前記参照フォルマント周波数の変化量を取得し、
前記複数の音声変換プリセットの各々が、さらに、前記第2所定値を基準としたフォルマントの周波数の変化量を定め、
前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との間の距離を、第1軸及び第2軸がそれぞれ前記基本周波数の変化量及び前記フォルマントの周波数の変化量を表現する2次元座標系に配置された、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記フォルマントの周波数の変化量と、前記参照基本周波数の変化量及び前記参照フォルマント周波数の変化量と、を用いて算出する、請求項1に記載のコンピュータプログラム。 The computer program comprising:
acquiring, as a reference formant frequency, a formant frequency calculated by signal processing of a voice signal based on an utterance by the target user;
obtaining an amount of change in the reference formant frequency relative to a second predetermined value ;
Each of the plurality of voice conversion presets further defines a change amount of a formant frequency based on the second predetermined value ,
2. The computer program of claim 1, wherein the distance between the voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user is calculated using the amount of change in the fundamental frequency and the amount of change in the formant frequency determined by the voice conversion preset, and the amount of change in the reference fundamental frequency and the amount of change in the reference formant frequency, arranged in a two-dimensional coordinate system in which a first axis and a second axis respectively represent the amount of change in the fundamental frequency and the amount of change in the formant frequency.
前記第2所定値は、複数のユーザから取得されたフォルマントの周波数の平均値に基づいて設定される、請求項2に記載のコンピュータプログラム。 the first predetermined value is set based on an average value of fundamental frequencies acquired from a plurality of users;
The computer program product according to claim 2 , wherein the second predetermined value is set based on an average value of formant frequencies obtained from a plurality of users.
√{(前記第1所定値を基準とした参照基本周波数の変化量-前記音声変換プリセットにより定められる前記第1所定値を基準とした基本周波数の変化量)2+(前記第2所定値を基準とした参照フォルマント周波数の変化量-前記音声変換プリセットにより定められる前記第2所定値を基準としたフォルマントの周波数の変化量)2}
という数式により算出される、請求項2又は請求項3に記載のコンピュータプログラム。 The distance between the voice corresponding to each of the voice conversion presets included in the plurality of voice conversion presets and the voice of the target user is
√{(amount of change in reference fundamental frequency based on the first predetermined value −amount of change in fundamental frequency based on the first predetermined value determined by the voice conversion preset) 2 + (amount of change in reference formant frequency based on the second predetermined value −amount of change in formant frequency based on the second predetermined value determined by the voice conversion preset) 2 }
The computer program according to claim 2 or 3, wherein the calculation is performed by the following formula:
前記対象ユーザに対して選択された前記少なくとも1つの音声変換プリセットと同一の音声変換プリセットに対応付けられた少なくとも1人のユーザを、前記対象ユーザに類似する声を有する少なくとも1人の類似ユーザとして選択し、
前記複数の音声変換プリセットのうち、前記少なくとも1人の類似ユーザにより過去に使用された少なくとも1つの音声変換プリセットを、前記対象ユーザに推奨すべき少なくとも1つの推奨音声変換プリセットとして選択する、請求項1から請求項6のいずれかに記載のコンピュータプログラム。 Based on reference information associating each user included in the plurality of users with at least one voice conversion preset whose distance from the voice of the user satisfies a predetermined condition,
Selecting at least one user associated with the same voice conversion preset as the at least one voice conversion preset selected for the target user as at least one similar user having a voice similar to that of the target user;
The computer program product according to claim 1 , further comprising: selecting, from among the plurality of voice conversion presets, at least one voice conversion preset that has been used in the past by the at least one similar user as at least one recommended voice conversion preset to be recommended to the target user.
該音声変換プリセットが定める前記基本周波数の変化量に応じて、入力音声信号の基本周波数を変換し、該音声変換プリセットが定める前記フォルマントの周波数の変化量に応じて、前記入力音声信号のフォルマントの周波数を変換することにより、出力音声信号を生成するものである、請求項2、請求項3又は請求項5に記載のコンピュータプログラム。 The voice conversion process using each of the voice conversion presets included in the plurality of voice conversion presets includes:
A computer program as described in claim 2, 3 or 5, which generates an output audio signal by converting the fundamental frequency of an input audio signal in accordance with an amount of change in the fundamental frequency determined by the audio conversion preset, and converting the formant frequency of the input audio signal in accordance with an amount of change in the formant frequency determined by the audio conversion preset.
該音声変換プリセットがいずれかのユーザにより再生された回数及び/又はいずれかのユーザによりシェアされた回数に比例するように設定される、請求項1から請求項14のいずれかに記載のコンピュータプログラム。 The value of each of the plurality of audio conversion presets is:
A computer program product as claimed in any preceding claim, wherein the audio conversion presets are set proportionally to the number of times they have been played by any user and/or the number of times they have been shared by any user.
該プロセッサが、
対象ユーザによる発話に基づく音声信号に対する信号処理により算出される基本周波数を参照基本周波数として取得し、
第1所定値を基準とした前記参照基本周波数の変化量を取得し、
各々が、第1所定値を基準とした基本周波数の変化量を定め、前記対象ユーザによる発話に基づく音声信号を変換するために用いられる、複数の音声変換プリセットを取得し、 前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する、ことを特徴とするサーバ装置。 At least one processor;
The processor:
A fundamental frequency calculated by signal processing of a voice signal based on an utterance by a target user is obtained as a reference fundamental frequency;
Obtaining an amount of change in the reference fundamental frequency based on a first predetermined value ;
A server device characterized in that it obtains a plurality of voice conversion presets, each of which determines an amount of change in fundamental frequency based on a first predetermined value and is used to convert a voice signal based on the speech of the target user, and calculates a distance between a voice corresponding to each voice conversion preset included in the plurality of voice conversion presets and the voice of the target user based on the amount of change in the fundamental frequency and the amount of change in the reference fundamental frequency determined by the voice conversion preset.
複数のユーザに含まれる各ユーザと、該ユーザの声との距離が所定値未満である少なくとも1つの音声変換プリセットと、を対応付ける参照情報に基づいて、
前記対象ユーザに対して選択された前記少なくとも1つの音声変換プリセットと同一の音声変換プリセットに対応付けられた少なくとも1人のユーザを、前記対象ユーザに類似する声を有する少なくとも1人の類似ユーザとして選択し、
前記複数の音声変換プリセットのうち、前記少なくとも1人の類似ユーザにより過去に使用された少なくとも1つの音声変換プリセットを、前記対象ユーザに推奨すべき少なくとも1つの推奨音声変換プリセットとして選択する、請求項19に記載のサーバ装置。 The processor,
Based on reference information associating each user included in the plurality of users with at least one voice conversion preset whose distance from the voice of the user is less than a predetermined value,
Selecting at least one user associated with the same voice conversion preset as the at least one voice conversion preset selected for the target user as at least one similar user having a voice similar to that of the target user;
The server device according to claim 19, wherein at least one of the plurality of voice conversion presets that has been used in the past by the at least one similar user is selected as at least one recommended voice conversion preset to be recommended to the target user.
該プロセッサが、前記命令を実行することにより、
対象ユーザによる発話に基づいて音声信号を取得する第1取得工程と、
前記音声信号に対する信号処理により算出される基本周波数を参照基本周波数として取得する第2取得工程と、
第1所定値を基準とした参照基本周波数の変化量を取得する第3取得工程と、
各々が、第1所定値を基準とした基本周波数の変化量を定め、前記対象ユーザによる発話に基づく音声信号を変換するために用いられる、複数の音声変換プリセットを取得する第4取得工程と、
前記複数の音声変換プリセットに含まれる各音声変換プリセットに対応する声と前記対象ユーザの声との距離を、前記音声変換プリセットにより定められる前記基本周波数の変化量及び前記参照基本周波数の変化量に基づいて算出する算出工程と、
を含むことを特徴とする方法。 1. A method performed by at least one processor executing computer readable instructions, comprising:
The processor executes the instructions to:
A first acquisition step of acquiring a voice signal based on an utterance by a target user;
a second acquisition step of acquiring a fundamental frequency calculated by signal processing of the audio signal as a reference fundamental frequency;
a third acquisition step of acquiring an amount of change in the reference fundamental frequency based on the first predetermined value ;
a fourth acquisition step of acquiring a plurality of voice conversion presets, each of which defines a change amount of a fundamental frequency based on a first predetermined value and is used to convert a voice signal based on an utterance by the target user;
a calculation step of calculating a distance between a voice corresponding to each of the plurality of voice conversion presets and the voice of the target user based on an amount of change in the fundamental frequency and an amount of change in the reference fundamental frequency determined by the voice conversion preset;
The method according to claim 1, further comprising:
前記対象ユーザに対して選択された前記少なくとも1つの音声変換プリセットと同一の音声変換プリセットに対応付けられた少なくとも1人のユーザを、前記対象ユーザに類似する声を有する少なくとも1人の類似ユーザとして選択する第1選択工程と、
前記複数の音声変換プリセットのうち、前記少なくとも1人の類似ユーザにより過去に使用された少なくとも1つの音声変換プリセットを、前記対象ユーザに推奨すべき少なくとも1つの推奨音声変換プリセットとして選択する第2選択工程と、
を含む、請求項22に記載の方法。 Based on reference information associating each user included in the plurality of users with at least one voice conversion preset whose distance from the voice of the user is less than a predetermined value,
A first selection step of selecting at least one user associated with the same voice conversion preset as the at least one voice conversion preset selected for the target user as at least one similar user having a voice similar to that of the target user;
a second selection step of selecting at least one voice conversion preset from among the plurality of voice conversion presets, the at least one voice conversion preset having been used in the past by the at least one similar user, as at least one recommended voice conversion preset to be recommended to the target user;
23. The method of claim 22, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222758A JP7483226B2 (en) | 2019-12-10 | 2019-12-10 | Computer program, server device and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019222758A JP7483226B2 (en) | 2019-12-10 | 2019-12-10 | Computer program, server device and method |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021092644A JP2021092644A (en) | 2021-06-17 |
JP2021092644A5 JP2021092644A5 (en) | 2022-12-07 |
JP7483226B2 true JP7483226B2 (en) | 2024-05-15 |
Family
ID=76312333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019222758A Active JP7483226B2 (en) | 2019-12-10 | 2019-12-10 | Computer program, server device and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7483226B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282267A (en) | 2000-03-29 | 2001-10-12 | Mega Chips Corp | Speech processing system and speech processing method |
JP2002351489A (en) | 2001-05-29 | 2002-12-06 | Namco Ltd | Game information, information storage medium, and game machine |
JP2007140548A (en) | 2007-01-29 | 2007-06-07 | Yamaha Corp | Portrait output device and karaoke device |
US20090037179A1 (en) | 2007-07-30 | 2009-02-05 | International Business Machines Corporation | Method and Apparatus for Automatically Converting Voice |
-
2019
- 2019-12-10 JP JP2019222758A patent/JP7483226B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001282267A (en) | 2000-03-29 | 2001-10-12 | Mega Chips Corp | Speech processing system and speech processing method |
JP2002351489A (en) | 2001-05-29 | 2002-12-06 | Namco Ltd | Game information, information storage medium, and game machine |
JP2007140548A (en) | 2007-01-29 | 2007-06-07 | Yamaha Corp | Portrait output device and karaoke device |
US20090037179A1 (en) | 2007-07-30 | 2009-02-05 | International Business Machines Corporation | Method and Apparatus for Automatically Converting Voice |
Also Published As
Publication number | Publication date |
---|---|
JP2021092644A (en) | 2021-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6855527B2 (en) | Methods and devices for outputting information | |
US11238899B1 (en) | Efficient audio description systems and methods | |
US12027165B2 (en) | Computer program, server, terminal, and speech signal processing method | |
US9324318B1 (en) | Creation and application of audio avatars from human voices | |
Tarunika et al. | Applying machine learning techniques for speech emotion recognition | |
JPWO2008149547A1 (en) | Voice quality editing apparatus and voice quality editing method | |
CN109272984A (en) | Method and apparatus for interactive voice | |
Burger et al. | Embodiment in electronic dance music: Effects of musical content and structure on body movement | |
CN110209869A (en) | A kind of audio file recommended method, device and storage medium | |
JP2018005048A (en) | Voice quality conversion system | |
CN105321526B (en) | Audio processing method and electronic equipment | |
KR101482739B1 (en) | Method and system for arrangement service of a music | |
JP7483226B2 (en) | Computer program, server device and method | |
CN112422999B (en) | Live content processing method and computer equipment | |
Assmann et al. | Relationship between fundamental and formant frequencies in voice preference | |
JP2002333892A (en) | Audio information providing system | |
JP6701478B2 (en) | Video generation apparatus, video generation model learning apparatus, method thereof, and program | |
EP3644306B1 (en) | Methods for analyzing musical compositions, computer-based system and machine readable storage medium | |
CN113450811A (en) | Method and equipment for performing transparent processing on music | |
Mayor et al. | Kaleivoicecope: voice transformation from interactive installations to video games | |
JP2022157293A (en) | Content reproduction control system and program | |
JP2024059688A (en) | Computer program, method and server device | |
Mayor et al. | Audio transformation technologies applied to video games | |
JP2018033093A (en) | Composition parameters optimization device, its method and program | |
Sun et al. | Intelligent analysis of music's affective features and expressive pattern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230831 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240422 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7483226 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |