JP2024088283A - Program, method, and information processing device - Google Patents

Program, method, and information processing device Download PDF

Info

Publication number
JP2024088283A
JP2024088283A JP2022203373A JP2022203373A JP2024088283A JP 2024088283 A JP2024088283 A JP 2024088283A JP 2022203373 A JP2022203373 A JP 2022203373A JP 2022203373 A JP2022203373 A JP 2022203373A JP 2024088283 A JP2024088283 A JP 2024088283A
Authority
JP
Japan
Prior art keywords
user
avatar
change
information
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022203373A
Other languages
Japanese (ja)
Other versions
JP7339420B1 (en
Inventor
鉄平 倉橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
COVER CORP.
Original Assignee
COVER CORP.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by COVER CORP. filed Critical COVER CORP.
Priority to JP2022203373A priority Critical patent/JP7339420B1/en
Priority to JP2023136128A priority patent/JP2024088576A/en
Application granted granted Critical
Publication of JP7339420B1 publication Critical patent/JP7339420B1/en
Publication of JP2024088283A publication Critical patent/JP2024088283A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】アバターの表情の違和感を低減させ、より視聴者の没入感を高める技術を提供する。【解決手段】プロセッサを備えるコンピュータによって実行されるプログラムであって、プログラムは、プロセッサに、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、表示態様を変化させるステップでは、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定するステップと、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行させるプログラム。【選択図】図23[Problem] To provide a technology for reducing the sense of incongruity of an avatar's facial expression and enhancing the sense of immersion of a viewer. [Solution] A program executed by a computer having a processor, the program causes the processor to execute the steps of: accepting a result of sensing the movement of one or more facial parts of a user who is distributing video; distributing video using an avatar corresponding to the user based on the accepted result of sensing the movement of the one or more facial parts, and at this time, changing the display mode of the one or more facial parts of the avatar; the step of changing the display mode includes the steps of identifying eye movement among the facial parts of the user based on the sensing result; and changing the display mode of the avatar corresponding to the user to a first expression if the identified eye movement of the user satisfies a first condition. [Selected Figure] Fig. 23

Description

本開示は、プログラム、方法、情報処理装置に関する。 This disclosure relates to a program, a method, and an information processing device.

ユーザの表情等をアバターにリアルタイムに反映させる技術が知られている。 Technology is known that allows a user's facial expressions to be reflected in an avatar in real time.

特許文献1には、ユーザの顔面に装着されるディスプレイを有し、ユーザの表情を推定し、推定したユーザの頭部の動きと顔の表情をアバターに付与してディスプレイに表示する技術が記載されている。 Patent document 1 describes a technology that has a display that is attached to the user's face, estimates the user's facial expression, and assigns the estimated user's head movement and facial expression to an avatar and displays it on the display.

特開2016-126500号公報JP 2016-126500 A

特許文献1の技術では、ウェアラブル端末を介してユーザの表情を推定し、アバターの表情に反映させる技術が開示されている。
しかしながら、特許文献1の技術では、ユーザの表情を全てアバターに反映させてしまうため、例えばユーザが状況にそぐわない表情をしていた場合にもアバターにそれを反映させてしまい、視聴者であるユーザに違和感を与えてしまう恐れがある。
そのため、アバターの表情の違和感を低減させ、より視聴者の没入感を高めるための技術が必要とされている。
The technology disclosed in Patent Document 1 estimates a user's facial expression via a wearable device and reflects it in an avatar's facial expression.
However, with the technology of Patent Document 1, all of the user's facial expressions are reflected in the avatar, so even if the user has an expression that is inappropriate for the situation, this will be reflected in the avatar, which may cause the viewer (user) to feel uncomfortable.
Therefore, there is a need for technology that can reduce the discomfort felt by avatars' facial expressions and increase the viewer's sense of immersion.

一実施形態によると、プロセッサを備えるコンピュータによって実行されるプログラムであって、プログラムは、プロセッサに、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、表示態様を変化させるステップでは、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定するステップと、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行させるプログラムが提供される。 According to one embodiment, there is provided a program executed by a computer having a processor, the program causing the processor to execute the steps of: receiving a result of sensing the movement of one or more facial parts of a user who is to perform video distribution; and performing video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time, changing the display mode of the one or more facial parts of the avatar, wherein the step of changing the display mode includes a step of identifying eye movement among the facial parts of the user based on the sensing result; and a step of changing the display mode of the avatar corresponding to the user to a first facial expression if the identified eye movement of the user satisfies a first condition.

本開示によれば、アバターの表情の違和感を低減させ、より視聴者の没入感を高める技術を提供することができる。 This disclosure provides technology that reduces the discomfort felt by avatars' facial expressions and enhances the viewer's sense of immersion.

システム1全体の構成を示すブロック図である。FIG. 2 is a block diagram showing the overall configuration of the system 1. 端末装置10の機能的な構成を示す図である。FIG. 2 is a diagram showing the functional configuration of a terminal device 10. サーバ20の機能的な構成を示す図である。FIG. 2 is a diagram showing the functional configuration of the server 20. サーバ20の記憶部に記憶されているユーザ情報データベース(DB)、アバター情報DB、ウェアラブルデバイス情報DBのデータ構造である。1 shows the data structures of a user information database (DB), an avatar information DB, and a wearable device information DB stored in the storage unit of server 20. ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理を表すフローチャートである。11 is a flowchart showing a series of processes for acquiring a voice spectrum of a user's speech and changing the state of the mouth of an avatar corresponding to the user in accordance with the speech of the performer based on the acquired voice spectrum. ユーザが自身の母音の音声スペクトルをシステム1に登録する際の画面例である。13 is an example of a screen when a user registers the voice spectrum of his/her own vowel in the system 1. ユーザがアバターの口、または顔の部位の態様の変化の程度の設定を行う際の画面例を示す。13 shows an example of a screen when a user sets the degree of change in the appearance of an avatar's mouth or facial parts. ユーザの発話から、ユーザの1または複数の感情の候補を推定し、当該推定したユーザの1または複数の感情に基づいて、アバターの態様を変化させる画面例を示す。13 shows an example screen in which one or more candidate emotions of a user are estimated from the user's speech, and the appearance of an avatar is changed based on the estimated one or more emotions of the user. ユーザが人間とは異なる属性のアバターに対し、音声スペクトル等に基づいて各種設定を行う画面例を示す。13 shows an example of a screen where a user can configure various settings based on voice spectrum, etc., for an avatar with attributes different from humans. ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理を表すフローチャートである。A flowchart showing a series of processes involved in sensing the movement of one or more facial parts of a user and changing the appearance of one or more facial parts of an avatar corresponding to the user based on the sensed movement of the one or more facial parts. ユーザの1または複数の顔の部位の動きをセンシングし、当該センシングした1または複数の顔の部位の動きに基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。13 shows an example screen when sensing the movement of one or more facial parts of a user and changing the appearance of one or more facial parts of a corresponding avatar based on the sensed movement of the one or more facial parts. ユーザの1または複数の感情の候補を推定し、ユーザから選択された感情に基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。13 shows an example screen when one or more candidate emotions of a user are estimated, and the appearance of one or more facial parts of a corresponding avatar is changed based on the emotion selected by the user. ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合のアバターの態様の変化の程度の度合いを設定する際の画面例を示す。13 shows an example of a screen for setting the degree of change in the appearance of the avatar when sensing results cannot be obtained for at least one associated part out of one or more parts of the user's face. ユーザが眼鏡等のウェアラブルデバイスを装着している際に、アバターの態様の変化の程度の度合いを補正する際の画面例を示す。13 shows an example of a screen when correcting the degree of change in the appearance of an avatar when a user is wearing a wearable device such as glasses. ユーザの口の動きがセンシングできない場合に、発話の変化の程度に基づいて、アバターの口の態様を変化させる際の画面例を示す。13 shows an example of a screen in which the state of the avatar's mouth is changed based on the degree of change in speech when the movement of the user's mouth cannot be sensed. アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示する際の画面例を示す。13 shows an example screen that is displayed when a specific notification is presented to the user when the difference in degree settings between one or more facial parts of an avatar that are previously associated with each other exceeds a specific threshold. 所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示する際の画面例を示す。13 shows an example of a screen that is displayed when presenting a predetermined notification to a user, showing how at least one or a plurality of facial parts change when the degree difference is set within a predetermined range. サーバ20の記憶部に記憶されている変化条件データベースのデータ構造である。1 shows a data structure of a change condition database stored in a storage unit of a server 20. サーバ20の記憶部に記憶されている属性データベースのデータ構造である。1 shows a data structure of an attribute database stored in a storage unit of a server 20. サーバ20の記憶部に記憶されている画面補正データベースのデータ構造である。1 shows a data structure of a screen correction database stored in a storage unit of a server 20. サーバ20の記憶部に記憶されている楽曲データベースのデータ構造である。1 shows the data structure of a music database stored in the storage unit of the server 20. 取得したセンシング結果に基づいて、ユーザに対応するアバターの表示態様を変化させる一連の処理を示すフローチャートである。11 is a flowchart showing a series of processes for changing the display mode of an avatar corresponding to a user based on an acquired sensing result. ユーザの目のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。13 shows an example of a screen when the display mode of an avatar is changed according to an output value outputted under a predetermined change condition based on the sensing result of the user's eyes. ユーザの目、目以外の顔の部位のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。13 shows an example of a screen when the display mode of an avatar is changed according to output values outputted under predetermined change conditions based on the sensing results of the user's eyes and other facial parts. ユーザのアバターの属性が所定の属性の時に、ユーザの目のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。13 shows an example of a screen in which the display mode of a user's avatar is changed according to an output value outputted under a predetermined change condition based on the sensing result of the user's eyes when the attribute of the user's avatar is a predetermined attribute.

以下、図面を参照しつつ、本発明の実施の形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称および機能も同じである。したがって、それらについての詳細な説明は繰り返さない。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the following description, the same parts are given the same reference numerals. Their names and functions are also the same. Therefore, detailed descriptions thereof will not be repeated.

<第1の実施の形態>
<概要>
以下の実施形態では、アバターを操作する演者であるユーザの音声スペクトルに基づいて、アバターの口の態様を変化させる技術について説明する。
ここで、本開示にかかる技術を実現する際において適宜使用される装置等に関しては限定されず、ユーザの所持しているスマートフォン、タブレット端末などの端末装置の場合もあれば、据え置き型のPC(Personal Computer)より提示されることもある。
First Embodiment
<Overview>
In the following embodiment, a technique for changing the state of the mouth of an avatar based on the voice spectrum of a user who is an actor operating the avatar will be described.
Here, there is no limitation on the devices etc. that may be used as appropriate when realizing the technology disclosed herein, and the devices etc. may be terminal devices such as smartphones or tablet terminals owned by the user, or may be presented from a stationary PC (Personal Computer).

マイク等の集音装置を介して取得したユーザの音声に基づいて、アバターの口の動きを制御する技術が知られている。しかし、当該システムでは、ユーザの実際の口の動きと、アバターの動きが正確に同期せず、視聴者に違和感をあたえてしまうおそれがある。 There is a known technology that controls the mouth movements of an avatar based on the user's voice picked up through a sound collection device such as a microphone. However, with this system, the user's actual mouth movements and the avatar's movements do not synchronize accurately, which can cause viewers to feel uncomfortable.

そこで、システム1では、アバターの口の態様の変化をより一層自然に見せる技術を提供する。 Therefore, System 1 provides technology that makes changes in the avatar's mouth shape appear more natural.

システム1は、例えば、動画配信サイト等において、ユーザ(演者)の動きをトラッキングしたアバターを利用するライブストリーミング配信等の場面において使用され得る。例えば、システム1は、ユーザが使用する端末装置(PC等)に備わっているカメラ(撮像装置)を介して、ユーザの動きなどをトラッキングしてアバターの動きに反映する。また、システム1は、同じくユーザの端末装置に備えられているマイク(集音装置)を介して、演者の発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、演者に対応したアバターの口の態様を演者の発話に応じて変化させる。
このとき、システム1は、演者に対応したアバター及び演者の音声を視聴者に提示し、アバターの口の態様を演者の発話に応じて変化させる程度の設定を、演者の発話の変化よりも低い程度とすることが可能に受け付ける。システム1は、当該処理を実行することで、アバターの口の態様を、演者の発話に応じて変化させることがあり得る。
これにより、アバターの口の態様の変化をより一層自然に見せることができる。
The system 1 can be used, for example, in a scene of live streaming distribution using an avatar that tracks the movement of a user (performer) on a video distribution site, etc. For example, the system 1 tracks the user's movement, etc., via a camera (imaging device) provided on a terminal device (PC, etc.) used by the user, and reflects it in the movement of the avatar. The system 1 also acquires the voice spectrum of the performer's speech via a microphone (sound collection device) also provided on the user's terminal device, and changes the state of the mouth of the avatar corresponding to the performer according to the performer's speech based on the acquired voice spectrum.
At this time, the system 1 presents an avatar corresponding to the performer and the voice of the performer to the audience, and accepts a setting for the degree to which the avatar's mouth shape is changed in response to the performer's speech to be lower than the degree of change in the performer's speech. By executing this process, the system 1 can change the avatar's mouth shape in response to the performer's speech.
This allows the changes in the avatar's mouth appearance to appear even more natural.

<1 システム全体の構成図>
図1は、第1の実施の形態におけるシステム1の全体の構成を表している。
<1 Overall system configuration>
FIG. 1 shows the overall configuration of a system 1 according to the first embodiment.

図1に示すように、システム1は、複数の端末装置(図1では端末装置10Aおよび端末装置10Bを示している。以下、総称して「端末装置10」ということもある。また、さらに複数の端末装置10C等が構成に含まれていてもよい。)と、サーバ20とを含む。端末装置10とサーバ20とは、ネットワーク80を介して通信接続する。 As shown in FIG. 1, system 1 includes multiple terminal devices (terminal device 10A and terminal device 10B are shown in FIG. 1. Hereinafter, they may be collectively referred to as "terminal device 10." Furthermore, multiple terminal devices 10C, etc. may also be included in the configuration) and a server 20. The terminal devices 10 and server 20 are connected for communication via a network 80.

端末装置10は、各ユーザが操作する装置である。端末装置10は、移動体通信システムに対応したスマートフォン、タブレット等の携帯端末などにより実現される。この他に、端末装置10は、例えば据え置き型のPC(Personal Computer)、ラップトップPC等であるとしてもよい。図1に端末装置10Bとして示すように、端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、記憶部16と、プロセッサ19とを備える。サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。 The terminal device 10 is a device operated by each user. The terminal device 10 is realized by a mobile terminal such as a smartphone or tablet compatible with a mobile communication system. In addition, the terminal device 10 may be, for example, a stationary PC (Personal Computer) or a laptop PC. As shown as terminal device 10B in FIG. 1, the terminal device 10 includes a communication IF (Interface) 12, an input device 13, an output device 14, a memory 15, a storage unit 16, and a processor 19. The server 20 includes a communication IF 22, an input/output IF 23, a memory 25, a storage 26, and a processor 29.

端末装置10は、ネットワーク80を介してサーバ20と通信可能に接続される。端末装置10は、5G、LTE(Long Term Evolution)などの通信規格に対応した無線基地局81、IEEE(Institute of Electrical and Electronics Engineers)802.11などの無線LAN(Local Area Network)規格に対応した無線LANルータ82等の通信機器と通信することによりネットワーク80に接続される。 The terminal device 10 is connected to the server 20 via the network 80 so as to be able to communicate with the server 20. The terminal device 10 is connected to the network 80 by communicating with communication devices such as a wireless base station 81 that supports communication standards such as 5G and LTE (Long Term Evolution) and a wireless LAN router 82 that supports wireless LAN (Local Area Network) standards such as IEEE (Institute of Electrical and Electronics Engineers) 802.11.

通信IF12は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。入力装置13は、ユーザからの入力操作を受け付けるための入力装置(例えば、タッチパネル、タッチパッド、マウス等のポインティングデバイス、キーボード等)である。出力装置14は、ユーザに対し情報を提示するための出力装置(ディスプレイ、スピーカ等)である。メモリ15は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。記憶部16は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。 The communication IF 12 is an interface for inputting and outputting signals so that the terminal device 10 can communicate with external devices. The input device 13 is an input device (e.g., a touch panel, a touch pad, a pointing device such as a mouse, a keyboard, etc.) for receiving input operations from a user. The output device 14 is an output device (a display, a speaker, etc.) for presenting information to a user. The memory 15 is for temporarily storing programs and data processed by the programs, etc., and is a volatile memory such as a DRAM (Dynamic Random Access Memory). The storage unit 16 is a storage device for saving data, such as a flash memory or a HDD (Hard Disc Drive). The processor 19 is hardware for executing an instruction set described in a program, and is composed of an arithmetic unit, a register, peripheral circuits, etc.

サーバ20は、ユーザがアバターを利用したライブストリーミング等を行う際に設定する情報等を管理する。サーバ20は、例えば、ユーザの情報、アバターの情報、ユーザが着用しているウェアラブルデバイスの情報等を記憶する。 The server 20 manages information set by the user when performing live streaming using an avatar. The server 20 stores, for example, information about the user, information about the avatar, and information about the wearable device worn by the user.

通信IF22は、サーバ20が外部の装置と通信するため、信号を入出力するためのインタフェースである。入出力IF23は、ユーザからの入力操作を受け付けるための入力装置、および、ユーザに対し情報を提示するための出力装置とのインタフェースとして機能する。メモリ25は、プログラム、および、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。ストレージ26は、データを保存するための記憶装置であり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。プロセッサ29は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路などにより構成される。 The communication IF 22 is an interface for inputting and outputting signals so that the server 20 can communicate with external devices. The input/output IF 23 functions as an interface with an input device for accepting input operations from the user and an output device for presenting information to the user. The memory 25 is for temporarily storing programs and data processed by the programs, etc., and is a volatile memory such as a DRAM (Dynamic Random Access Memory). The storage 26 is a storage device for saving data, such as a flash memory or a HDD (Hard Disc Drive). The processor 29 is hardware for executing a set of instructions written in a program, and is composed of an arithmetic unit, registers, peripheral circuits, etc.

本実施形態において、各装置(端末装置、サーバ等)を情報処理装置として把握することもできる。すなわち、各装置の集合体を1つの「情報処理装置」として把握することができ、システム1を複数の装置の集合体として形成してもよい。1つ又は複数のハードウェアに対して本実施形態に係るシステム1を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はシステム1に求められる仕様等に鑑みて適宜決定することができる。 In this embodiment, each device (terminal device, server, etc.) can also be considered as an information processing device. In other words, a collection of devices can be considered as one "information processing device," and system 1 can be formed as a collection of multiple devices. The method of allocating multiple functions required to realize system 1 according to this embodiment to one or multiple pieces of hardware can be appropriately determined in consideration of the processing capacity of each piece of hardware and/or the specifications required for system 1, etc.

<1.1 端末装置10の構成>
図2は、実施の形態1のシステム1を構成する端末装置10のブロック図である。図2に示すように、端末装置10は、複数のアンテナ(アンテナ111、アンテナ112)と、各アンテナに対応する無線通信部(第1無線通信部121、第2無線通信部122)と、操作受付部130(タッチ・センシティブ・デバイス1301およびディスプレイ1302を含む)と、音声処理部140と、マイク141と、スピーカ142と、位置情報センサ150と、カメラ160と、モーションセンサ170と、記憶部180と、制御部190と、を含む。端末装置10は、図2では特に図示していない機能及び構成(例えば、電力を保持するためのバッテリ、バッテリから各回路への電力の供給を制御する電力供給回路など)も有している。図2に示すように、端末装置10に含まれる各ブロックは、バス等により電気的に接続される。
<1.1 Configuration of terminal device 10>
FIG. 2 is a block diagram of the terminal device 10 constituting the system 1 of the first embodiment. As shown in FIG. 2, the terminal device 10 includes a plurality of antennas (antenna 111, antenna 112), wireless communication units (first wireless communication unit 121, second wireless communication unit 122) corresponding to each antenna, an operation reception unit 130 (including a touch-sensitive device 1301 and a display 1302), a voice processing unit 140, a microphone 141, a speaker 142, a position information sensor 150, a camera 160, a motion sensor 170, a storage unit 180, and a control unit 190. The terminal device 10 also has functions and configurations (e.g., a battery for holding power, a power supply circuit for controlling the supply of power from the battery to each circuit, etc.) that are not particularly shown in FIG. 2. As shown in FIG. 2, each block included in the terminal device 10 is electrically connected by a bus or the like.

アンテナ111は、端末装置10が発する信号を電波として放射する。また、アンテナ111は、空間から電波を受信して受信信号を第1無線通信部121へ与える。 The antenna 111 emits the signal emitted by the terminal device 10 as a radio wave. The antenna 111 also receives the radio wave from space and provides the received signal to the first wireless communication unit 121.

アンテナ112は、端末装置10が発する信号を電波として放射する。また、アンテナ112は、空間から電波を受信して受信信号を第2無線通信部122へ与える。 The antenna 112 emits the signal emitted by the terminal device 10 as a radio wave. The antenna 112 also receives the radio wave from space and provides the received signal to the second wireless communication unit 122.

第1無線通信部121は、端末装置10が他の無線機器と通信するため、アンテナ111を介して信号を送受信するための変復調処理などを行う。第2無線通信部122は、端末装置10が他の無線機器と通信するため、アンテナ112を介して信号を送受信するための変復調処理などを行う。第1無線通信部121と第2無線通信部122とは、チューナー、RSSI(Received Signal Strength Indicator)算出回路、CRC(Cyclic Redundancy Check)算出回路、高周波回路などを含む通信モジュールである。第1無線通信部121と第2無線通信部122とは、端末装置10が送受信する無線信号の変復調、および周波数変換を行い、受信信号を制御部190へ与える。 The first wireless communication unit 121 performs modulation and demodulation processing and the like for transmitting and receiving signals via the antenna 111 so that the terminal device 10 can communicate with other wireless devices. The second wireless communication unit 122 performs modulation and demodulation processing and the like for transmitting and receiving signals via the antenna 112 so that the terminal device 10 can communicate with other wireless devices. The first wireless communication unit 121 and the second wireless communication unit 122 are communication modules including a tuner, an RSSI (Received Signal Strength Indicator) calculation circuit, a CRC (Cyclic Redundancy Check) calculation circuit, a high-frequency circuit, and the like. The first wireless communication unit 121 and the second wireless communication unit 122 perform modulation and demodulation and frequency conversion of wireless signals transmitted and received by the terminal device 10, and provide the received signals to the control unit 190.

操作受付部130は、ユーザの入力操作を受け付けるための機構を有する。具体的には、操作受付部130は、タッチスクリーンとして構成され、タッチ・センシティブ・デバイス1301と、ディスプレイ1302とを含む。タッチ・センシティブ・デバイス1301は、端末装置10のユーザの入力操作を受け付ける。タッチ・センシティブ・デバイス1301は、例えば静電容量方式のタッチパネルを用いることによって、タッチパネルに対するユーザの接触位置を検出する。タッチ・センシティブ・デバイス1301は、タッチパネルにより検出したユーザの接触位置を示す信号を入力操作として制御部190へ出力する。また、端末装置10は、物理的に入力可能なキーボード(図示せず)を備え、当該キーボードを介して、ユーザの入力操作を受け付けてもよい。 The operation reception unit 130 has a mechanism for receiving input operations from the user. Specifically, the operation reception unit 130 is configured as a touch screen and includes a touch-sensitive device 1301 and a display 1302. The touch-sensitive device 1301 receives input operations from the user of the terminal device 10. The touch-sensitive device 1301 detects the user's touch position on the touch panel, for example, by using a capacitive touch panel. The touch-sensitive device 1301 outputs a signal indicating the user's touch position detected by the touch panel to the control unit 190 as an input operation. The terminal device 10 may also be provided with a keyboard (not shown) that can be physically input, and may receive the user's input operations via the keyboard.

ディスプレイ1302は、制御部190の制御に応じて、画像、動画、テキストなどのデータを表示する。ディスプレイ1302は、例えばLCD(Liquid Crystal Display)、または有機EL(Electro-Luminescence)ディスプレイによって実現される。 The display 1302 displays data such as images, videos, and text in response to the control of the control unit 190. The display 1302 is realized, for example, by an LCD (Liquid Crystal Display) or an organic EL (Electro-Luminescence) display.

音声処理部140は、音声信号の変復調を行う。音声処理部140は、マイク141から与えられる信号を変調して、変調後の信号を制御部190へ与える。また、音声処理部140は、音声信号をスピーカ142へ与える。音声処理部140は、例えば音声処理用のプロセッサによって実現される。マイク141は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部140へ与える。スピーカ142は、音声処理部140から与えられる音声信号を音声に変換して当該音声を端末装置10の外部へ出力する。 The audio processing unit 140 modulates and demodulates audio signals. The audio processing unit 140 modulates a signal provided by the microphone 141 and provides the modulated signal to the control unit 190. The audio processing unit 140 also provides the audio signal to the speaker 142. The audio processing unit 140 is realized, for example, by a processor for audio processing. The microphone 141 accepts audio input and provides an audio signal corresponding to the audio input to the audio processing unit 140. The speaker 142 converts the audio signal provided by the audio processing unit 140 into audio and outputs the audio to the outside of the terminal device 10.

位置情報センサ150は、端末装置10の位置を検出するセンサであり、例えばGPS(Global Positioning System)モジュールである。GPSモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも3個または4個の衛星からの信号を受信し、受信した信号に基づいて、GPSモジュールが搭載される端末装置10の現在位置を検出する。位置情報センサ150は、情報機器間の近距離通信システムで用いられる通信規格に基づく送受信装置であるとしてもよい。具体的には、位置情報センサ150は、Bluetooth(登録商標)モジュールなど2.4GHz帯を使用して、Bluetooth(登録商標)モジュールを搭載した他の情報機器からのビーコン信号を受信する。 The location information sensor 150 is a sensor that detects the location of the terminal device 10, and is, for example, a GPS (Global Positioning System) module. The GPS module is a receiving device used in a satellite positioning system. In the satellite positioning system, signals are received from at least three or four satellites, and the current location of the terminal device 10 equipped with the GPS module is detected based on the received signals. The location information sensor 150 may be a transmitting/receiving device based on a communication standard used in a short-range communication system between information devices. Specifically, the location information sensor 150 uses the 2.4 GHz band, such as a Bluetooth (registered trademark) module, to receive beacon signals from other information devices equipped with a Bluetooth (registered trademark) module.

カメラ160は、受光素子により光を受光して、撮影画像として出力するためのデバイスである。カメラ160は、例えば、カメラ160から撮影対象までの距離を検出できる深度カメラである。
また、カメラ160は、端末装置10を使用するユーザの身体の動きを取得する。具体的には、例えば、カメラ160は、ユーザの口の動き、顔の各部位(目、眉等)の動きを取得する。当該動きの取得は、既存のあらゆる技術を利用してよい。
The camera 160 is a device that receives light using a light receiving element and outputs the received light as a captured image. The camera 160 is, for example, a depth camera that can detect the distance from the camera 160 to a subject being photographed.
Furthermore, the camera 160 captures the body movements of the user who uses the terminal device 10. Specifically, for example, the camera 160 captures the movements of the user's mouth and each part of the face (eyes, eyebrows, etc.). The movements may be captured using any existing technology.

モーションセンサ170は、ジャイロセンサ、加速度センサ等により構成され、端末装置10の傾きを検出する。 The motion sensor 170 is composed of a gyro sensor, an acceleration sensor, etc., and detects the inclination of the terminal device 10.

記憶部180は、例えばフラッシュメモリ等により構成され、端末装置10が使用するデータおよびプログラムを記憶する。ある局面において、記憶部180は、ユーザ情報1801、アバター情報1802、ウェアラブルデバイス情報1803等を記憶する。当該情報は、端末装置10の記憶部180に保持される他、後述するサーバの記憶部202にデータベースとして記憶されたものを、ネットワーク80を介して取得してもよい。 The storage unit 180 is configured, for example, from a flash memory, and stores data and programs used by the terminal device 10. In one aspect, the storage unit 180 stores user information 1801, avatar information 1802, wearable device information 1803, etc. The information may be held in the storage unit 180 of the terminal device 10, or may be stored as a database in the storage unit 202 of a server described below and acquired via the network 80.

ユーザ情報1801は、ユーザを識別するID、ユーザ名、ユーザに対応するアバターの情報等の情報である。ここで、ユーザとは、マイク141、またはカメラ160を介して取得した情報に基づいてアバターを動かす演者を示す。ユーザ情報に含まれる情報の詳細は、後述する。 User information 1801 is information such as an ID for identifying a user, a user name, and information about an avatar corresponding to the user. Here, a user refers to a performer who controls an avatar based on information acquired via microphone 141 or camera 160. Details of the information contained in user information will be described later.

アバター情報1802は、ユーザに対応するアバターに関する各種情報である。アバター情報1802は、例えば、対応するユーザ、ユーザが普段使用する設定等の情報を保持しており、ユーザがライブストリーミング等の配信において、スムーズにアバターを操作するために参照される情報である。アバター情報に含まれる情報の詳細は、後述する。
ユーザが普段使用する設定は、例えば、アバターの態様の変化の度合いの基本設定、普段の配信でデフォルトとして表示させる感情、ユーザのセンシング感度等、アバターを使用して配信する際にユーザが調整可能なパラメータ、条件である。
The avatar information 1802 is various information related to an avatar corresponding to a user. The avatar information 1802 holds information such as the corresponding user and settings that the user normally uses, and is information that is referenced by the user to smoothly operate the avatar in distribution such as live streaming. Details of the information included in the avatar information will be described later.
The settings that the user normally uses are parameters and conditions that the user can adjust when broadcasting using an avatar, such as the basic settings for the degree of change in the avatar's appearance, the emotions displayed as default in normal broadcasts, the user's sensing sensitivity, etc.

ウェアラブルデバイス情報1803は、ユーザが配信時に着用しているウェアラブルデバイスに関する各種情報である。各種情報は、例えば、下記を含む。
・ウェアラブルデバイスの種類
・ウェアラブルデバイスのサイズ
・ウェアラブルデバイスの透過率
・電子的な情報取得の可否
ウェアラブルデバイス情報1803は、例えば、ユーザが着用している眼鏡、スマートグラス等のアイウェア、ヘッドマウントディスプレイ(HMD)等の各種器具、デバイスに関する各種情報を保持する。ウェアラブルデバイス情報1803に含まれる情報の詳細は、後述する。
The wearable device information 1803 is various information related to the wearable device that the user is wearing at the time of distribution. The various information includes, for example, the following:
- Type of wearable device - Size of wearable device - Transmittance of wearable device - Availability of electronic information acquisition Wearable device information 1803 holds various information related to various instruments and devices worn by the user, such as glasses, eyewear such as smart glasses, a head mounted display (HMD), etc. Details of the information included in wearable device information 1803 will be described later.

制御部190は、記憶部180に記憶されるプログラムを読み込んで、プログラムに含まれる命令を実行することにより、端末装置10の動作を制御する。制御部190は、例えばアプリケーションプロセッサである。制御部190は、プログラムに従って動作することにより、入力操作受付部1901と、送受信部1902と、データ処理部1903と、報知制御部1904としての機能を発揮する。 The control unit 190 controls the operation of the terminal device 10 by reading a program stored in the storage unit 180 and executing instructions contained in the program. The control unit 190 is, for example, an application processor. By operating according to the program, the control unit 190 fulfills the functions of an input operation reception unit 1901, a transmission/reception unit 1902, a data processing unit 1903, and a notification control unit 1904.

入力操作受付部1901は、タッチ・センシティブ・デバイス1301等の入力装置に対するユーザの入力操作を受け付ける処理を行う。入力操作受付部1901は、タッチ・センシティブ・デバイス1301に対してユーザが指などを接触させた座標の情報に基づき、ユーザの操作がフリック操作であるか、タップ操作であるか、ドラッグ(スワイプ)操作であるか等の操作の種別を判定する。 The input operation reception unit 1901 performs processing to receive a user's input operation on an input device such as the touch-sensitive device 1301. The input operation reception unit 1901 determines the type of operation, such as whether the user's operation is a flick operation, a tap operation, or a drag (swipe) operation, based on information on the coordinates where the user touches the touch-sensitive device 1301 with a finger or the like.

送受信部1902は、端末装置10が、サーバ20等の外部の装置と、通信プロトコルに従ってデータを送受信するための処理を行う。 The transmission/reception unit 1902 performs processing for the terminal device 10 to transmit and receive data to and from external devices such as the server 20 in accordance with a communication protocol.

データ処理部1903は、端末装置10が入力を受け付けたデータに対し、プログラムに従って演算を行い、演算結果をメモリ等に出力する処理を行う。 The data processing unit 1903 performs calculations on the data received by the terminal device 10 according to a program, and outputs the calculation results to a memory or the like.

データ処理部1903は、カメラ160により取得されたユーザの口などの動きを受け付け、各種処理を実行させるための処理を制御する。例えば、データ処理部1903は、カメラ160により取得したユーザの口の動きに基づいて、ユーザと対応するアバターの口の動きを制御する処理を実行させる。 The data processing unit 1903 receives the movements of the user's mouth, etc., captured by the camera 160, and controls the processing for executing various processes. For example, the data processing unit 1903 executes processing for controlling the mouth movement of an avatar corresponding to the user, based on the movements of the user's mouth captured by the camera 160.

報知制御部1904は、表示画像をディスプレイ1302に表示させる処理、音声をスピーカ142に出力させる処理、振動をカメラ160に発生させる処理を行う。 The notification control unit 1904 performs processing to display the display image on the display 1302, to output sound to the speaker 142, and to generate vibrations in the camera 160.

<1.2 サーバ20の機能的な構成>
図3は、サーバ20の機能的な構成を示す図である。図3に示すように、サーバ20は、通信部201と、記憶部202と、制御部203としての機能を発揮する。
<1.2 Functional configuration of server 20>
Fig. 3 is a diagram showing the functional configuration of the server 20. As shown in Fig. 3, the server 20 fulfills the functions of a communication unit 201, a storage unit 202, and a control unit 203.

通信部201は、サーバ20が外部の装置と通信するための処理を行う。 The communication unit 201 performs processing for the server 20 to communicate with external devices.

記憶部202は、サーバ20が使用するデータ及びプログラムを記憶する。記憶部202は、ユーザ情報データベース2021と、アバター情報データベース2022と、ウェアラブルデバイス情報データベース2023等を記憶する。 The storage unit 202 stores data and programs used by the server 20. The storage unit 202 stores a user information database 2021, an avatar information database 2022, a wearable device information database 2023, etc.

ユーザ情報データベース2021は、アバターを操作する演者に関する各種情報を保持するためのデータベースである。当該データベースが保持する各レコードの詳細は後述する。 The user information database 2021 is a database for storing various information about the performers who control the avatars. Details of each record stored in this database will be described later.

アバター情報データベース2022は、ユーザが操作するアバターに関する各種情報を保持するためのデータベースである。詳細は後述する。 The avatar information database 2022 is a database for storing various information related to the avatars operated by the user. Details will be described later.

ウェアラブルデバイス情報データベース2023は、アバターを操作するユーザが装着しているアイウェアに関する各種情報を保持するためのデータベースである。詳細は後述する。 The wearable device information database 2023 is a database for storing various information about the eyewear worn by the user who operates the avatar. Details will be described later.

制御部203は、例えばプロセッサ29により構成され、このプロセッサ29がプログラムに従って処理を行うことにより、各種モジュールとして受信制御モジュール2031、送信制御モジュール2032、ユーザ情報取得モジュール2033、アバター情報取得モジュール2034、音声スペクトル取得モジュール2035、アバター変化モジュール2036、アバター提示モジュール2037、設定受付モジュール2038、ウェアラブルデバイス情報取得モジュール2039、変化補正モジュール2040等に示す機能を発揮する。 The control unit 203 is composed of, for example, a processor 29, which performs processing according to a program to provide the functions of various modules such as a reception control module 2031, a transmission control module 2032, a user information acquisition module 2033, an avatar information acquisition module 2034, an audio spectrum acquisition module 2035, an avatar change module 2036, an avatar presentation module 2037, a setting reception module 2038, a wearable device information acquisition module 2039, and a change correction module 2040.

受信制御モジュール2031は、サーバ20が外部の装置から通信プロトコルに従って信号を受信する処理を制御する。 The reception control module 2031 controls the process in which the server 20 receives signals from external devices according to a communication protocol.

送信制御モジュール2032は、サーバ20が外部の装置に対し通信プロトコルに従って信号を送信する処理を制御する。 The transmission control module 2032 controls the process in which the server 20 transmits signals to external devices according to a communication protocol.

ユーザ情報取得モジュール2033は、アバターを操作する演者であるユーザの各種情報を取得する処理を制御する。各種情報は、例えば、下記を含む。
・ユーザの氏名、識別ID
・ユーザに対応するアバターの情報
・ユーザが着用しているデバイス(眼鏡等)
具体的には、例えば、ユーザ情報取得モジュール2033は、ユーザが利用する端末装置10の記憶部180からユーザ情報1801を参照することにより、当該情報を取得しても良い。また、ユーザ情報取得モジュール2033は、後述するサーバ20の記憶部202に保持されているユーザ情報データベース2021を参照することにより当該情報を取得してもよい。他にも、ユーザ情報取得モジュール2033は、ユーザから直接ユーザに関する各種情報の入力を受け付けることで、当該情報を取得してもよい。
The user information acquisition module 2033 controls the process of acquiring various information about the user who is the performer operating the avatar. The various information includes, for example, the following:
User name and ID
・Avatar information corresponding to the user ・Devices worn by the user (glasses, etc.)
Specifically, for example, the user information acquisition module 2033 may acquire the information by referring to the user information 1801 from the storage unit 180 of the terminal device 10 used by the user. Also, the user information acquisition module 2033 may acquire the information by referring to a user information database 2021 held in the storage unit 202 of the server 20, which will be described later. In addition, the user information acquisition module 2033 may acquire the information by accepting input of various pieces of information related to the user directly from the user.

アバター情報取得モジュール2034は、ユーザが操作するアバターの各種情報を取得する。各種情報は、例えば、下記を含む。
・アバターを識別するIDの情報
・アバターの属性(人間、人間以外等)の情報
・対応するユーザがデフォルトで設定している口、顔、またはそれ以外の身体の部位の態様の情報
・アバターごとに個別に設定されている、口、顔、またはそれ以外の身体の部位の専用の設定
具体的には、例えば、アバター情報取得モジュール2034は、各ユーザに紐づけられたアバターの情報を、アバター情報1802、またはユーザ情報データベース2021を参照することで取得してもよい。
また、ある局面において、サーバ20は、ユーザからアバターの口、顔、またはそれ以外の身体の部位の態様の変化の度合いに対する設定の入力を受け付け、当該設定をデフォルトとして再設定する操作を受け付けると、アバター情報1802等に保持しているアバター情報を更新する処理を行ってもよい。これにより、ユーザは、適宜アバターの態様の変化の度合いのうち、よく使用する設定をデフォルトとして設定でき、アバターの操作を容易に行うことができる。
The avatar information acquisition module 2034 acquires various information about the avatar operated by the user. The various information includes, for example, the following:
- ID information for identifying the avatar - Avatar attribute information (human, non-human, etc.) - Information on the appearance of the mouth, face, or other body parts set by default by the corresponding user - Dedicated settings for the mouth, face, or other body parts set individually for each avatar Specifically, for example, the avatar information acquisition module 2034 may acquire information on the avatar linked to each user by referring to the avatar information 1802 or the user information database 2021.
In addition, in a certain aspect, the server 20 may receive from the user an input of a setting for the degree of change in the appearance of the avatar's mouth, face, or other body parts, and upon receiving an operation to reset the setting as a default, perform a process of updating the avatar information held in the avatar information 1802, etc. This allows the user to appropriately set a frequently used setting of the degree of change in the appearance of the avatar as the default, making it easy to operate the avatar.

なお、アバターの情報は、各ユーザに対して1つでなくともよい。例えば、ユーザに対し予め複数のアバターの情報が紐づけられていてもよいし、追加でユーザに紐づけされてもよい。 Note that the avatar information does not have to be one for each user. For example, multiple avatar information may be linked to a user in advance, or additional avatar information may be linked to the user.

また、ある局面において、アバターIDは、下記の情報を包含していてもよい。
・アバターの外観に関する情報(性別、瞳の色、髪型、口、顔の部位、またはそれ以外の身体の部位の大きさ、髪の色、肌の色等)
・アバターの口、顔、またはそれ以外の身体の部位の態様に関する情報(変化する態様の種類の多寡、変化する態様の変化量の多寡等)
ここで、サーバ20は、上記アバター情報を、コンテンツの種類と紐づけて記憶してもよい。具体的には、例えば、サーバ20は、ユーザがライブ配信等で提供するコンテンツの種類(雑談、歌、演技等)と、口、顔、その他の身体の部位に対する態様の変化の度合いの設定を紐づけておき、ユーザがどのコンテンツを提供するかを選択する操作を受け付けると、当該コンテンツに対応する設定をアバターに反映させてもよい。
In addition, in one aspect, the avatar ID may include the following information:
- Information about the appearance of the avatar (gender, eye color, hairstyle, mouth, facial features, size of other body features, hair color, skin color, etc.)
Information about the state of the avatar's mouth, face, or other body parts (the number of types of changes in state, the amount of change in state, etc.)
Here, the server 20 may store the avatar information in association with the type of content. Specifically, for example, the server 20 may associate the type of content (chat, singing, acting, etc.) provided by the user in live distribution or the like with settings of the degree of change in the appearance of the mouth, face, and other body parts, and when the server 20 receives an operation by the user to select which content to provide, the server 20 may reflect the setting corresponding to the content in the avatar.

これにより、ユーザは、視聴者に提供するコンテンツに合わせて、アバターの態様を適切に変化させることができるため、視聴者に没入感を与えることができる。 This allows users to appropriately change the appearance of their avatar to match the content they are providing to the viewer, giving the viewer a sense of immersion.

また、サーバ20は、ユーザから使用するアバターの選択を受け付けたのち、態様の変化の度合いの設定を自動で反映させるのではなく、ユーザからの選択を受けつけ、同時にユーザに所定の通知(ダイアログ等)を提示してもよい。例えば、サーバ20は、ユーザが使用するアバターを選択後、アバター毎に設定されている専用の設定ではなく、通常使用する汎用的な設定を選択した際「通常設定で問題ないか否か」等の通知を提示してもよい。 Furthermore, after accepting a selection of an avatar to be used from a user, the server 20 may accept the selection from the user and simultaneously present a predetermined notification (dialog, etc.) to the user, rather than automatically reflecting the setting of the degree of change in appearance. For example, after the user selects an avatar to be used, the server 20 may present a notification such as "Are the normal settings OK?" when the user selects a general-purpose setting that is normally used, rather than a dedicated setting that is set for each avatar.

これにより、ユーザは、間違った設定を反映させてライブ配信をすることを防ぐことができ、視聴者の没入感を削ぐことを防止することができる。 This will prevent users from broadcasting live content with incorrect settings, which could ruin the immersive experience for viewers.

また、サーバ20は、上記態様の変化の度合いの設定を、ライブ配信中に受け付け反映させてもよい。具体的には、例えば、サーバ20は、ユーザからライブ配信中に態様の変化の度合いの設定の変更を受け付けると、設定の変更を受け付けた後、所定の時間経過後に取得したユーザの音声スペクトル、またはユーザのセンシング結果に基づいてアバターの態様を変化させる際、変更後の設定に基づいてアバターの態様を変化させる処理を実行してもよい。
これにより、ユーザは、ライブ配信中に適宜態様の変化の設定を変更し反映させることができるため、ライブ配信中に提供するコンテンツを切り替えても、ユーザに違和感なくアバターの態様の変化を見せることができる。
Furthermore, the server 20 may accept and reflect the setting of the degree of change in appearance during live distribution. Specifically, for example, when the server 20 accepts a change in the setting of the degree of change in appearance from a user during live distribution, the server 20 may execute a process of changing the appearance of the avatar based on the changed setting when changing the appearance of the avatar based on the voice spectrum of the user acquired after a predetermined time has elapsed after accepting the change in setting or the sensing result of the user.
This allows the user to change and reflect the settings for the appearance change as appropriate during live streaming, so that even if the content provided during live streaming is switched, the user can see the change in the avatar's appearance without feeling uncomfortable.

音声スペクトル取得モジュール2035は、ユーザの発話の音声スペクトルを取得する処理を制御する。具体的には、例えば、音声スペクトル取得モジュール2035は、マイク141を介して取得したユーザが発話した音声から、音声スペクトルを取得する処理を制御する。例えば、音声スペクトル取得モジュール2035は、マイク141を介して、ユーザの音声を取得し、当該音声に含まれる音声スペクトルを取得する。例えば、音声スペクトル取得モジュール2035は、マイク141から取得した音声をフーリエ変換し、音声に含まれる音声スペクトルの情報を取得してもよい。このとき、音声スペクトルを取得する演算は、フーリエ変換に限られず、既存のあらゆる方法であってもよい。
また、ある局面において、音声スペクトル取得モジュール2035は、ユーザの音声から母音の音声スペクトルの情報を取得してもよい。例えば、音声スペクトル取得モジュール2035は、予めユーザから入力する母音の設定を受け付けておき、その後、ユーザからの発声を、マイク141を介して受け付けることで、受け付けた母音の設定と取得した音声スペクトルとを関連付けて記憶する。
また、ある局面において、音声スペクトル取得モジュール2035は、子音に起因する音声の情報である「t」、「c」、「h」、「k」、「m」、「r」、「s」、「n」、「w」等の音を取得し、当該記憶した母音の情報と組み合わせることで、ユーザが発話した言葉を推定してもよい。
これにより、システム1では、ユーザの音声スペクトルのうち、母音に関する音声スペクトルを別に特徴付けして記憶することができるため、アバターの口の態様の動きをより正確に変化させることができる。
The voice spectrum acquisition module 2035 controls a process of acquiring a voice spectrum of a user's speech. Specifically, for example, the voice spectrum acquisition module 2035 controls a process of acquiring a voice spectrum from a voice uttered by the user acquired via the microphone 141. For example, the voice spectrum acquisition module 2035 acquires the user's voice via the microphone 141 and acquires a voice spectrum contained in the voice. For example, the voice spectrum acquisition module 2035 may perform a Fourier transform on the voice acquired from the microphone 141 to acquire information on the voice spectrum contained in the voice. At this time, the calculation for acquiring the voice spectrum is not limited to a Fourier transform, and may be any existing method.
In addition, in a certain aspect, the voice spectrum acquisition module 2035 may acquire information on the voice spectrum of a vowel from the voice of the user. For example, the voice spectrum acquisition module 2035 accepts a vowel setting input by the user in advance, and then accepts an utterance from the user via the microphone 141, thereby storing the accepted vowel setting and the acquired voice spectrum in association with each other.
In addition, in one aspect, the voice spectrum acquisition module 2035 may acquire sounds such as "t,""c,""h,""k,""m,""r,""s,""n," and "w," which are voice information resulting from consonants, and combine them with the stored vowel information to estimate the words spoken by the user.
This allows the system 1 to separately characterize and store the voice spectrum relating to vowels among the user's voice spectrum, thereby making it possible to change the movement of the avatar's mouth shape more accurately.

アバター変化モジュール2036は、取得した音声スペクトルに基づいて、演者に対応したアバターの口の態様を演者の発話に応じて変化させる処理を制御する。具体的には、例えば、アバター変化モジュール2036は、音声スペクトル取得モジュール2035が取得したユーザの音声スペクトルから、ユーザが発話した言葉を推定し、当該推定した言葉に応じてアバターの口の態様を変化させる。例えば、アバター変化モジュール2036は、ユーザの音声スペクトルからユーザが発話した母音の情報を推定し、当該母音にあわせて口の態様を変化させる。例えば、アバター変化モジュール2036は、音声スペクトル取得モジュール2035が取得したユーザの音声スペクトルが「あ」である場合に、アバターの口の態様を「あ」に対応した形に変化させる。 The avatar change module 2036 controls a process of changing the mouth shape of an avatar corresponding to a performer according to the performer's speech based on the acquired voice spectrum. Specifically, for example, the avatar change module 2036 estimates the words spoken by the user from the user's voice spectrum acquired by the voice spectrum acquisition module 2035, and changes the mouth shape of the avatar according to the estimated words. For example, the avatar change module 2036 estimates information on a vowel spoken by the user from the user's voice spectrum, and changes the mouth shape to match the vowel. For example, when the user's voice spectrum acquired by the voice spectrum acquisition module 2035 is "a", the avatar change module 2036 changes the mouth shape of the avatar to a shape corresponding to "a".

アバター提示モジュール2037は、演者に対応したアバター及びユーザの音声を視聴者に提示する処理を制御する。具体的には、例えば、アバター提示モジュール2037は、ユーザに対応するアバターの映像と、ユーザの音声とを、視聴者が使用する端末装置10のディスプレイ1302及びスピーカ142に送信し当該視聴者に提示する。このとき、視聴者は一人とは限らず、複数の視聴者の端末装置10にアバター及び音声とを提示してもよい。 The avatar presentation module 2037 controls the process of presenting an avatar corresponding to a performer and the user's voice to the viewer. Specifically, for example, the avatar presentation module 2037 transmits an image of an avatar corresponding to a user and the user's voice to the display 1302 and speaker 142 of the terminal device 10 used by the viewer, and presents them to the viewer. At this time, the viewer is not limited to one person, and the avatar and voice may be presented to the terminal device 10 of multiple viewers.

設定受付モジュール2038は、アバターの口の態様をユーザの発話に応じて変化させる程度の設定を、ユーザの発話の変化よりも低い程度とすることが可能に受け付ける処理を制御する。具体的には、例えば、設定受付モジュール2038は、ユーザから、アバターの口の態様を変化させる程度の設定として、ユーザの発話をアバターの口の態様に反映させる時間間隔の設定を受け付ける。例えば、設定受付モジュール2038は、下記を含む設定を受け付けてもよい。
・アバターの口の態様がユーザの音声スペクトルから推定される発話の音声に対応した態様に変化するまでの所要時間の設定
・一定期間内にユーザの発話に基づいてアバターの動作を変更・更新する頻度(例えば、1秒間の更新数)の設定
ここで、ユーザの発話の変化について定義する。ユーザの発話の変化は、例えば、ユーザの発話の速度であり、下記に基づいて算出されてもよい。
・ユーザが発話した母音が変化する時間間隔(例えば、母音が「あ」から「い」に変化する際の時間間隔)
このとき、サーバ20は、子音に由来する音(c、k等)を同時に取得し、同一の母音を連続して取得した場合でも、別の単語を発話しているとして発話の速度を推定してもよい。
・所定期間内に発せられる母音の数
このとき、設定受付モジュール2038は、当該設定を、ユーザの発話の変化から推定されるアバターの変化の程度よりも低い程度とすることが可能に受け付けてもよい。例えば、設定受付モジュール2038は、予めユーザの音声スペクトルから推定された発話(母音)に対応するように口の態様を変化させる際の所要時間を受け付けておいてもよい。サーバ20は、受け付けた所要時間に基づいて、ユーザの音声スペクトルから、ユーザが母音を発話した時間の情報を取得し、予め設定された所要時間との比率を算出し、態様の変化量に乗算し、アバターの口の態様の変化量を算出する。サーバ20は、取得した発話時間と、変化量とに基づき、口の態様を変化させる。例えば、ユーザが所要時間「1秒」でアバターの口が「あ」の態様に変化する設定を入力したとする。例えば、完全に「あ」の態様になるときを「100」とし、「1秒」で「100」になるように設定する。
このとき、サーバ20は、1秒で態様が変化する際の度合い(口の変化量、速度)についても、ユーザから受けてつけておいてもよい。(すなわち、1秒間で口の態様が変化するうち、最初の0.5秒と残りの0.5秒とで態様の変化量に差分を設定してもよい)
サーバ20は、ユーザが1秒間「あ」の音を発声した場合には、上記の変化量の設定等に基づき、1秒かけてアバターの口の態様を「あ」の態様に変化させる。しかし、ユーザが「あ」の発声を「0.5秒」しかしなかった場合には、サーバ20は、アバターの口の態様の変化量を「50」まで変化させる処理を行ってもよい。
The setting reception module 2038 controls a process of receiving a setting of the degree to which the state of the avatar's mouth is changed in response to the user's speech so as to be lower than the change in the user's speech. Specifically, for example, the setting reception module 2038 receives from the user a setting of a time interval for reflecting the user's speech in the state of the avatar's mouth as the setting of the degree to which the state of the avatar's mouth is changed. For example, the setting reception module 2038 may receive settings including the following:
Setting the time required for the avatar's mouth state to change to a state corresponding to the speech sound estimated from the user's voice spectrum Setting the frequency for changing/updating the avatar's movement based on the user's speech within a certain period of time (e.g., the number of updates per second) Here, a change in the user's speech is defined. The change in the user's speech is, for example, the speed of the user's speech, and may be calculated based on the following.
The time interval during which a vowel spoken by a user changes (for example, the time interval when a vowel changes from "a" to "i")
At this time, the server 20 may simultaneously acquire sounds derived from consonants (c, k, etc.), and even if the same vowel is acquired consecutively, estimate the speaking speed as if different words are being spoken.
The number of vowels uttered within a predetermined period At this time, the setting reception module 2038 may receive the setting to a degree lower than the degree of change of the avatar estimated from the change in the user's speech. For example, the setting reception module 2038 may receive the time required to change the state of the mouth to correspond to the speech (vowel) estimated in advance from the user's voice spectrum. The server 20 acquires information on the time when the user uttered the vowel from the user's voice spectrum based on the received required time, calculates a ratio to the previously set required time, multiplies it by the amount of change in the state, and calculates the amount of change in the state of the avatar's mouth. The server 20 changes the state of the mouth based on the acquired speech time and the amount of change. For example, it is assumed that the user inputs a setting that the avatar's mouth changes to the state of "a" in a required time of "1 second". For example, the time when the mouth completely changes to the state of "a" is set to "100", and it is set to "100" in "1 second".
At this time, the server 20 may also receive and record from the user the degree of change in the state of the mouth in one second (amount of change and speed of the mouth movement) (i.e., the difference in the amount of change in the state of the mouth between the first 0.5 seconds and the remaining 0.5 seconds of the change in the state of the mouth in one second may be set).
When the user utters the sound "a" for one second, the server 20 changes the state of the avatar's mouth to that of "a" over one second based on the above-mentioned setting of the amount of change, etc. However, when the user utters "a" for only "0.5 seconds", the server 20 may perform processing to change the amount of change in the state of the avatar's mouth up to "50".

また、サーバ20は、ユーザが連続して発話した場合(例えば、「あいうえお」と発話)には、それぞれの母音の発話時間を取得し、上記処理を行ってもよい。つまり、サーバ20は、それぞれの母音の発話時間から、それぞれの母音に対応したアバターの口の態様の変化量を算出し、アバターの口の態様を変化させてもよい。例えば、各母音に対応したアバターの口の態様に変化するまでの所要時間を「1秒」とし、「あ」を「0.2秒」、「い」を「0.3」秒発話していた場合、「あ」に対応した変化量は「20」であり、「い」に対応した変化量は「30」である。また、ユーザが所要時間よりも長い時間発話した場合には、サーバ20は、アバターの口の態様を、所用時間後もその状態を維持してもよい。
これにより、ユーザは、「あ」の音声を発声した場合に即時的にアバターを口の態様が「あ」になるのではなく、自身の発話時間に応じて徐々にアバターの口の態様を変化させることができる。また、所用時間を設定し、当該時間に満たない発話の場合に、口の態様の変化量を乗算して変化させることで、ユーザが軽く発話した際でもアバターの口の態様が大きく変化する(例えば、30程度の口の開きでもアバターの口の態様は100として変化する)ことを防ぐことができる。これにより、ユーザは、視聴者にユーザの発話とアバターの口の態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
Furthermore, when the user speaks continuously (for example, "aiueo"), the server 20 may obtain the speaking time of each vowel and perform the above process. That is, the server 20 may calculate the amount of change in the state of the avatar's mouth corresponding to each vowel from the speaking time of each vowel, and change the state of the avatar's mouth. For example, if the time required for the state of the avatar's mouth to change to that corresponding to each vowel is "1 second," and "a" is spoken for "0.2 seconds" and "i" is spoken for "0.3 seconds," the amount of change corresponding to "a" is "20," and the amount of change corresponding to "i" is "30." Furthermore, when the user speaks for a time longer than the required time, the server 20 may maintain the state of the state of the avatar's mouth even after the required time has passed.
This allows the user to change the avatar's mouth shape gradually according to the user's speaking time, rather than instantly changing the mouth shape to "A" when the user utters the sound "A." In addition, by setting a required time and multiplying the change in the mouth shape when the user utters less than the required time, it is possible to prevent the avatar's mouth shape from changing significantly even when the user speaks lightly (for example, even if the mouth is opened about 30 degrees, the avatar's mouth shape changes to 100). This allows the user to prevent the viewer from feeling uncomfortable due to the user's speech and the change in the avatar's mouth shape, and therefore allows the viewer to feel more immersed.

ある局面において、サーバ20は、ユーザから取得した音声スペクトルの大きさ、高さ等の情報等に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、サーバ20は、ユーザの音声スペクトルの周波数(Hz)、音圧(dB)の情報を取得し、当該情報が所定の閾値を超過した場合等に、アバターの口の態様を変化させてもよい。例えば、サーバ20は、所用時間「1秒」でアバターの口の態様を変化させる設定を受け付けており、ユーザの発話時間が「1秒」であったとする。このとき、サーバ20は、ユーザが「0.8秒」の時点で閾値を越す音圧で発声したことを検知した場合には、アバターの口の態様を、通常よりも大きく変化(大きく口を開けた態様にする)させてもよい。このとき、サーバ20は、口だけでなく、顔の部位、身体の部位についても同様の設定を反映させてもよい。
これにより、ユーザは、急に大声を上げた場合でも、アバターの口の態様に反映させることができ、より自然なアバターの動きを視聴者に見せることができる。
In a certain aspect, the server 20 may change the state of the mouth of the avatar based on information such as the size and height of the voice spectrum acquired from the user. Specifically, for example, the server 20 may acquire information on the frequency (Hz) and sound pressure (dB) of the user's voice spectrum, and may change the state of the mouth of the avatar when the information exceeds a predetermined threshold. For example, it is assumed that the server 20 accepts a setting to change the state of the mouth of the avatar in a required time of "1 second", and the user's speaking time is "1 second". At this time, when the server 20 detects that the user has spoken with a sound pressure exceeding the threshold at the time of "0.8 seconds", it may change the state of the mouth of the avatar to a larger state than usual (to a state in which the mouth is opened widely). At this time, the server 20 may reflect the same setting not only on the mouth but also on parts of the face and parts of the body.
This allows the state of the avatar's mouth to reflect the user's sudden loud shout, allowing the viewer to see more natural avatar movements.

他にも、設定受付モジュール2038は、ユーザの発話から推定される発話の速度から推定されるアバターの動作の更新頻度よりも低い値になるよう、アバターの口の態様の変化の程度の設定を受け付けてもよい。
その後、サーバ20は設定受付モジュール2038により設定した情報をアバター変化モジュール2036に送信し、アバターの口の態様を、設定に応じて変化させ、その後、アバター提示モジュール2037により視聴者にアバター及びユーザの音声を提示する。
これにより、ユーザは、母音の変化よりゆるやかにアバターの口の態様を変化させることで、より自身の発話に合わせて滑らかにアバターの口の態様を変化させることができる。これにより、ユーザは、アバターの口の態様が繊細に動きすぎて不自然な動きにすることを防ぐことができるため、視聴者により自然な口の動きを提示することができ、視聴者の没入感を高めることができる。
Additionally, the setting receiving module 2038 may receive a setting for the degree of change in the avatar's mouth pattern so that the setting is lower than the update frequency of the avatar's movements estimated from the speech speed estimated from the user's speech.
The server 20 then transmits the information set by the setting reception module 2038 to the avatar change module 2036, changes the shape of the avatar's mouth according to the settings, and then presents the avatar and the user's voice to the viewer by the avatar presentation module 2037.
This allows the user to change the avatar's mouth movement more smoothly to match the user's own speech by changing the avatar's mouth movement more gradually than the change in vowels, which allows the user to prevent the avatar's mouth movement from being too sensitive and making it look unnatural, thereby presenting more natural mouth movements to the viewer and increasing the viewer's sense of immersion.

ウェアラブルデバイス情報取得モジュール2039は、ユーザが着用しているウェアラブルデバイスの情報を取得する処理を制御する。具体的には、例えば、ウェアラブルデバイス情報取得モジュール2039は、ユーザの情報を取得すると、後述するウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。サーバ20は、取得したウェアラブルデバイスの情報を、変化補正モジュール2040に送信する。 The wearable device information acquisition module 2039 controls the process of acquiring information about the wearable device worn by the user. Specifically, for example, when the wearable device information acquisition module 2039 acquires user information, it refers to the wearable device information database 2023 described below and acquires information about the wearable device worn by the user. The server 20 transmits the acquired wearable device information to the change correction module 2040.

変化補正モジュール2040は、ウェアラブルデバイス情報取得モジュール2039が取得したウェアラブルデバイスの情報に基づいて、アバターに反映させる態様の変化の度合いの設定を補正する処理を制御する。具体的には、例えば、変化補正モジュール2040は、ウェアラブルデバイス情報取得モジュール2039が取得したウェアラブルデバイスの情報から、ユーザの顔の部位のうち、ウェアラブルデバイスに覆われている、遮蔽されている部位の態様の変化の度合いの設定を補正する。サーバ20は、ユーザの顔の所定の部位(口、目、眉、鼻等)のセンシング結果を取得し、当該センシング結果と、ユーザから受け付けた設定(センシング結果を反映させる度合い、パラメータの設定等)とを反映させ、アバターの態様を変化させる。このとき、例えば、変化補正モジュール2040は、ユーザが眼鏡を着用している場合、当該情報に基づいて、ユーザに対応するアバターの目の態様の変化の度合いをユーザから受け付けた時、予め設定されている補正値に基づいて補正して反映する、補正とは、例えば、ウェアラブルデバイスごとにユーザの顔の部位のセンシングの精度が低下する場合、当該低下率(あるいは減衰率)を予め設定しておき、当該設定に基づいて、センシング、トラッキング時のアバターへの動きの反映の度合いを補正する処理を示す。
これにより、ユーザは、眼鏡等を着用していても、アバターの態様の変化を自然に視聴者に提示することができる。
The change correction module 2040 controls a process of correcting the setting of the degree of change in the appearance to be reflected in the avatar based on the information of the wearable device acquired by the wearable device information acquisition module 2039. Specifically, for example, the change correction module 2040 corrects the setting of the degree of change in the appearance of the parts of the user's face that are covered or blocked by the wearable device from the information of the wearable device acquired by the wearable device information acquisition module 2039. The server 20 acquires the sensing result of a predetermined part of the user's face (mouth, eyes, eyebrows, nose, etc.), and changes the appearance of the avatar by reflecting the sensing result and the settings received from the user (degree to reflect the sensing result, parameter settings, etc.). At this time, for example, if the user is wearing glasses, when the change correction module 2040 receives from the user the degree of change in the state of the eyes of the avatar corresponding to the user based on the information, it corrects and reflects the change based on a preset correction value. Correction refers to a process in which, for example, when the accuracy of sensing parts of the user's face decreases for each wearable device, the rate of decrease (or attenuation rate) is set in advance, and the degree to which the movement is reflected in the avatar during sensing and tracking is corrected based on the setting.
This allows the user to present changes in the avatar's appearance to the viewer in a natural way, even if the user is wearing glasses or the like.

他にも、変化補正モジュール2040は、アバター情報取得モジュール2034が取得したアバターの属性に応じて、アバターの態様の変化の度合いを補正してもよい。
具体的には、例えば、変化補正モジュール2040は、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、変化補正モジュール2040は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
Additionally, the change correction module 2040 may correct the degree of change in the appearance of the avatar according to the attributes of the avatar acquired by the avatar information acquisition module 2034 .
Specifically, for example, the change correction module 2040 may acquire information as to whether the avatar operated by the user is a human or a non-human whose appearance changes differently from that of a human, and may execute a process of correcting the degree of change in the appearance of the avatar based on the information. For example, if the attribute of the avatar operated by the user is "dragon," the movement of the eyes, mouth, etc. may behave differently from that of a human. In that case, the change correction module 2040 may correct the amount of change in the corners of the mouth, the amount of change in the eyeballs, etc., to a shape that matches the avatar, based on the attribute of the "dragon."
This allows users to present more natural movements to viewers based on the results of their own speech and facial sensing, even when they are operating an avatar that is not human.

なお、本開示における実施形態において、上記構成は必須ではない。すなわち、端末装置10がサーバ20の役割を担い、サーバ20の制御部203を構成する各種モジュールと同じ処理を実行してもよい。また、端末装置10は、ネットワーク80を介さずとも、端末装置10に備えられたマイク141、カメラ160等を介して取得した情報をもとに、本発明において開示される各種機能を実施してもよい。 Note that the above configuration is not essential in the embodiments of the present disclosure. That is, the terminal device 10 may take on the role of the server 20 and execute the same processes as the various modules that configure the control unit 203 of the server 20. Furthermore, the terminal device 10 may execute the various functions disclosed in the present invention based on information acquired via the microphone 141, camera 160, etc. provided in the terminal device 10, without going through the network 80.

<2 データ構造>
図4は、サーバ20が記憶するユーザ情報データベース2021、アバター情報データベース2022、ウェアラブルデバイス情報データベース2023のデータ構造を示す図である。
<2 Data Structure>
FIG. 4 is a diagram showing the data structures of the user information database 2021, the avatar information database 2022, and the wearable device information database 2023 stored in the server 20. As shown in FIG.

図4に示すように、ユーザ情報データベース2021は、項目「ID」と、項目「対応アバター」と、項目「使用デバイス」と、項目「専用プリセット(口)」と、項目「専用プリセット(顔)」と、項目「基本設定」と、項目「よく使う感情」と、項目「備考」等を含む。 As shown in FIG. 4, the user information database 2021 includes an item "ID", an item "Corresponding avatar", an item "Device used", an item "Dedicated preset (mouth)", an item "Dedicated preset (face)", an item "Basic settings", an item "Frequently used emotions", an item "Notes", etc.

項目「ID」は、アバターを操作する演者であるユーザそれぞれを識別する情報である。 The "ID" item is information that identifies each user, the actor who controls the avatar.

項目「対応アバター」は、各ユーザに対応するアバターそれぞれを識別する情報である。 The "Corresponding Avatar" item is information that identifies each avatar that corresponds to each user.

項目「使用デバイス」は、各ユーザが着用しているデバイス、例えば、ユーザが着用しているウェアラブルデバイスそれぞれを識別する情報である。 The "Device Used" item is information that identifies the device worn by each user, for example, each wearable device worn by the user.

項目「専用プリセット(口)」は、各ユーザがアバターを操作する際の、アバターの口の態様を変化させる程度の度合いについて、ユーザ毎に予め設定された条件を示す情報である。具体的には、例えば、ユーザが操作するアバターが所定の状況下(例えば、口の態様を大きく変化させる等)になった際に、アバターに応じて個別に設定された各種条件を示す。プリセットに含まれる情報は、例えば、口角の高さ、唇の形等の情報が含まれていて良い。サーバ20は、ユーザから当該プリセットの選択を受け付けることで、アバターに当該設定を反映させ、視聴者に提示してもよい。
これにより、ユーザは、自身に対応するアバターに特有の口の態様の変化を即座に反映させ、視聴者に提示することができるため、より自然にアバターが動く様子を視聴者に見せることができる。
The item "Dedicated Preset (Mouth)" is information indicating conditions previously set for each user regarding the degree to which the state of the avatar's mouth is changed when each user operates the avatar. Specifically, for example, it indicates various conditions individually set for each avatar when the avatar operated by the user is in a specific situation (e.g., the state of the mouth is greatly changed, etc.). Information included in the preset may include, for example, information such as the height of the corners of the mouth and the shape of the lips. By accepting the selection of the preset from the user, the server 20 may reflect the setting in the avatar and present it to the viewer.
This allows the user to instantly reflect changes in the mouth shape that are specific to the avatar corresponding to the user and present it to the viewer, allowing the viewer to see the avatar moving in a more natural way.

項目「専用プリセット(顔)」は、各ユーザがアバターを操作する際の、アバターの顔の部位の態様を変化させる程度の度合いについて、ユーザ毎に予め設定された条件を示す情報である。具体的には、例えば、ユーザが操作するアバターが所定の状況下(例えば、アバターの表情を大きく変化させる等)になった際に、アバターに応じて個別に設定された各種条件を示す。プリセットに含まれる情報は、例えば、眉の向き、目の形、瞳孔の大きさ、頬の紅潮、発話又はユーザの表情のセンシング等の情報が含まれていて良い。サーバ20は、ユーザから当該プリセットの選択を受け付けることで、アバターに当該設定を反映させ、視聴者に提示してもよい。
例えば、ユーザが人間以外の属性のアバター(モンスター、無機物、ロボット等)を使用しているとする。その場合、アバターの各種部位(口、顔、身体)の態様の変化は、ユーザの音声スペクトル、センシング結果とは完全に一致しない可能性がある。そのため、サーバ20は、上記に例示した専用プリセット(口)、または専用プリセット(顔)の設定をユーザから受け付けてよい。これにより、ユーザは、ライブ配信等の際に当該プリセットを選択することで、あらゆるアバターを使用した時でも、違和感なくユーザの音声スペクトル、センシング結果をアバターの態様の変化に反映させることができる。
The item "Dedicated Preset (Face)" is information indicating conditions previously set for each user regarding the degree of change in the state of the avatar's facial parts when each user operates the avatar. Specifically, for example, it indicates various conditions individually set for each avatar when the avatar operated by the user is in a predetermined situation (for example, when the avatar's facial expression changes significantly). The information included in the preset may include, for example, the direction of the eyebrows, the shape of the eyes, the size of the pupils, the flushing of the cheeks, the sensing of the speech or the user's facial expression, etc. The server 20 may reflect the setting in the avatar by accepting the selection of the preset from the user and present it to the viewer.
For example, suppose that the user is using an avatar with attributes other than human (monster, inorganic object, robot, etc.). In that case, the changes in the appearance of various parts of the avatar (mouth, face, body) may not completely match the user's voice spectrum and sensing results. Therefore, the server 20 may accept the settings of the dedicated preset (mouth) or dedicated preset (face) exemplified above from the user. By selecting the preset during live distribution, etc., the user can seamlessly reflect the user's voice spectrum and sensing results in the changes in the appearance of the avatar even when using any avatar.

また、サーバ20は、他にも、ユーザが提供するコンテンツの種類に応じた専用のプリセットの設定を受け付けてもよい。例えば、ユーザが歌を配信する際の設定として、普段雑談する際よりも大きくアバターの口、顔の部位、身体の部位を変化させる設定などを受け付けていてもよい。
これにより、ユーザは、自身に対応するアバターに特有の顔の態様の変化を即座に反映させ、視聴者に提示することができるため、より自然にアバターが動く様子を視聴者に見せることができる。
The server 20 may also receive dedicated preset settings according to the type of content provided by the user. For example, when a user delivers a song, the server 20 may receive settings that change the mouth, facial parts, and body parts of the avatar more significantly than when the user normally chats.
This allows the user to instantly reflect changes in facial features specific to the avatar corresponding to the user and present it to the viewer, allowing the viewer to see the avatar moving in a more natural way.

項目「基本設定」は、ユーザが通常使用する変化の程度の度合いの設定を示す。具体的には、例えば、アバターを操作するユーザが普段の配信、ライブ配信・ライブストリーミングにおいて、口、顔、その他身体の部位の態様を変化させる際に、通常(汎用的に)使用する変化の程度の度合いの条件を示す。例えば、条件は、ユーザのセンシング結果に追随させる度合いの程度等を含んでもよい。センシング結果に追随させる度合いとは、例えば、センシング結果を直接アバターの態様の変化に反映させた際を100とした感度の度合い、ユーザの顔の変化量と比較したアバターの態様の変化量、センシング結果から推定されるアバターの単位時間あたりの変化量に対してアバターの動きに反映させる変化量の程度等を含む。
これにより、ユーザは、配信のたびに変化の程度の度合いを設定することなく、簡易に配信を始めることができる。
The item "basic settings" indicates the setting of the degree of change that the user normally uses. Specifically, for example, it indicates the condition of the degree of change that the user who operates the avatar normally (generally) uses when changing the state of the mouth, face, and other body parts in normal distribution, live distribution, and live streaming. For example, the condition may include the degree of the degree of tracking the user's sensing results. The degree of tracking the sensing results includes, for example, the degree of sensitivity when the sensing results are directly reflected in the change in the state of the avatar as 100, the amount of change in the state of the avatar compared to the amount of change in the user's face, the degree of change to be reflected in the movement of the avatar with respect to the amount of change per unit time of the avatar estimated from the sensing results, and the like.
This allows the user to easily start distribution without having to set the degree of change every time distribution is performed.

このとき、サーバ20は、基本設定と専用プリセットとを組み合わせて、コンテンツに応じた設定として受け付けてもよい。具体的には、例えば、コンテンツに応じたアバターの設定を下記に例示する。
・ASMR(Autonomous Sensory Meridian Response)モード(ささやきモード)
口は専用プリセット(感度を低めにし、小声感を出す)を使用しつつ、表情については基本設定を使用する。または、専用の表情の設定を併用する。
・アクションゲーム配信モード
口は専用プリセット(感度を高めにし、オーバーリアクションになるようにする)を使用しつつ、表情についても感度を高めにする。
・ホラーゲーム配信モード
口は専用プリセット(感度を低めにし、検出する周波数の閾値を低く設定する)を使用しつつ、表情も同様の感度設定を行う。または、専用の設定を使用する。
・雑談モード(基本設定を使用)
At this time, the server 20 may combine the basic settings and the dedicated presets and accept them as settings according to the content. Specifically, for example, the following are examples of avatar settings according to the content.
- ASMR (Autonomous Sensory Meridian Response) mode (whisper mode)
Use the dedicated preset for the mouth (lower sensitivity, softer voice), and use the basic settings for facial expressions, or use the dedicated facial expression settings in combination.
-Action game streaming mode: A special preset is used for the mouth (increasing sensitivity to result in an over-reaction), and the sensitivity of facial expressions is also increased.
Horror game streaming mode: Use a dedicated preset for the mouth (lower sensitivity and lower frequency threshold) and use the same sensitivity settings for facial expressions. Or use a dedicated setting.
・Chat mode (using basic settings)

また、ある局面において、サーバ20は、上記モードの切り替えについて、ユーザに切り替えボタンを提示し、当該ボタンのユーザからの押下操作を受け付けることにより、アバターにモードに基づいて態様の変化の度合いの設定を反映させてもよい。
このとき、サーバ20は、切り替えボタンを、視聴者には見えず、かつユーザには視認可能な状態でユーザに提示してもよい。また、サーバ20は、当該切り替えボタンの配置をユーザの操作により変更してもよい。
これにより、ユーザは、視聴者に提供するコンテンツに応じて、プリセットを使い分けることができ、より幅広い表現が可能となる。
In addition, in one aspect, the server 20 may present a switching button to the user for switching the above-mentioned modes, and accept the user's pressing of the button, thereby causing the avatar to reflect the setting of the degree of change in appearance based on the mode.
At this time, the server 20 may present the switching button to the user in a state that is invisible to the viewer but visible to the user. Also, the server 20 may change the arrangement of the switching button in response to an operation by the user.
This allows users to use different presets depending on the content they are providing to viewers, enabling a wider range of expression.

また、サーバ20は、仮想空間上の背景に関する情報を紐づけて記憶していてもよく、モードの切り替えに応答して、背景を変化させてもよい。他にも、サーバ20は、下記に例示する所定のオブジェクトを紐づけて記憶しておき、モードの切り替えに応答して当該オブジェクトを仮想空間上に表示してもよい。
・音楽ライブ配信時のマイク、楽器などの機材オブジェクト
・ゲーム配信時のゲーム機器のオブジェクト
・汎用的なオブジェクト(観葉植物、部屋の家具など)
これにより、サーバ20は、モードの切り替え時の読み込み処理を軽減でき、遅延などが生じ視聴者に違和感を与えることを防ぐことができる。
The server 20 may also store information related to the background in the virtual space in association with the object, and may change the background in response to the switching of the mode. Additionally, the server 20 may store a specific object, such as the following example, in association with the object, and display the object in the virtual space in response to the switching of the mode.
・Equipment objects such as microphones and instruments for live music streaming ・Game console objects for game streaming ・General-purpose objects (potted plants, room furniture, etc.)
This allows the server 20 to reduce the load of the reading process when switching modes, and prevents delays and other issues that may cause viewers to feel uncomfortable.

上記設定は、基本設定等と組み合わせて使用されてもよい。組み合わせは、ユーザから任意の設定を受け付けてよく、ユーザ毎に専用の組み合わせとして、記憶部に保持してもよい。また、サーバ20は、複数のプリセットにおいて、使用頻度の情報を取得してもよい。サーバ20は、当該使用頻度の情報に基づいて、ユーザに対し、使用頻度の高いプリセットを「よく使う設定」、または「基本設定」として保持するかの通知を提示してもよい。サーバ20は、ユーザから「よく使う設定」等に設定する旨の指示を受け付けると、当該プリセットを「よく使う設定」として記憶部に保持してもよい。 The above settings may be used in combination with basic settings, etc. The combination may be any setting accepted from the user, or may be stored in the storage unit as a dedicated combination for each user. The server 20 may also acquire information on the frequency of use of multiple presets. Based on the information on the frequency of use, the server 20 may present the user with a notification as to whether to retain a frequently used preset as a "frequently used setting" or a "basic setting". When the server 20 accepts an instruction from the user to set a "frequently used setting" or the like, it may retain the preset as a "frequently used setting" in the storage unit.

項目「よく使う感情」は、ユーザがアバターを操作する際に、よく使用する感情の設定を示す。具体的には、例えば、ユーザが配信中に「喜び」の感情をよく使用する場合、サーバ20は、当該感情に基づいたアバターの態様の変化の条件を予めデータベース内に保持していてもよい。このとき、態様の変化の条件は、口の態様の変化の程度の度合い、「喜び」の感情を表現する際に動作する顔の各種部位の変化量、センシング結果に追随させる度合いの程度、等を含む。
サーバ20は、当該保持している感情の設定の選択をユーザから受け付けると、当該感情に基づいてアバターの態様を変化させ、視聴者に提示してもよい。
これにより、ユーザは、普段の配信で使用する感情に応じたアバターの態様の変化を即座に設定することができ、簡易に配信を行うことができる。
The item "frequently used emotion" indicates the setting of an emotion that the user frequently uses when operating the avatar. Specifically, for example, if the user frequently uses the emotion "happiness" during distribution, the server 20 may store in advance in the database conditions for changing the avatar's appearance based on that emotion. In this case, the conditions for changing the appearance include the degree of change in the mouth appearance, the amount of change in various parts of the face that move when expressing the emotion "happiness", the degree of tracking the sensing results, etc.
When the server 20 receives a selection of the stored emotion setting from the user, the server 20 may change the appearance of the avatar based on the emotion and present it to the viewer.
This allows the user to instantly set changes in the appearance of the avatar according to the emotions used in everyday broadcasts, making broadcasting easy.

項目「備考」は、ユーザの情報に特記事項などがある場合に保持される情報である。 The "Notes" item is information that is stored if there are any special notes about the user's information.

図4に示すように、アバター情報データベース2022は、項目「ID」と、項目「対応ユーザ」と、項目「属性」と、項目「関連付け部位」と、項目「特殊部位の有無」と、項目「特殊部位の動作設定」と、項目「標準変化速度」と、項目「よく使う感情」と、項目「備考」等を含む。 As shown in FIG. 4, the avatar information database 2022 includes an "ID", an "associated user", an "attributes", an "associated body part", an "existence of special body parts", an "action settings for special body parts", an "standard change speed", an "often used emotions", an "notes", etc.

項目「ID」は、配信に使用され、視聴者に提示されるアバターそれぞれを識別する情報である。 The "ID" item is information used in distribution to identify each avatar presented to viewers.

項目「対応ユーザ」は、アバターを対応するユーザを識別する情報である。 The "Corresponding User" item is information that identifies the user to which the avatar corresponds.

項目「属性」は、アバター毎に設定されている属性を識別する情報である。具体的には、属性は、例えば、アバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかを特定する情報を示す。
属性は、例えば、下記の情報を含む
・人間
・人間とは異なる生物(動物、植物等)
・空想上の生物(竜、天使、悪魔等)
・機械
・不定形の存在(ファンタジーにおけるスライム、ゴースト等)
ある局面において、当該レコードは下位概念の情報として、定義された属性に特有の情報を保持していてもよい。具体的には、例えば、属性が「無機物」である場合には、「目が存在しない」といった下位概念を保持していてもよく、属性が「仮想生物」である場合には、「目が複数ある」等の情報を保持していてもよい。サーバ20は、当該属性の情報に基づいて、アバターの態様の変化の程度の度合いを補正するための情報を保持していてもよい。
これにより、ユーザは、人間以外のアバターを操作する際にも、適切に口、顔の態様を変化させることができる。
The item "attribute" is information for identifying attributes set for each avatar. Specifically, the attribute indicates, for example, information for specifying whether the avatar is a human or a non-human whose behavior changes differently from that of a human.
Attributes include, for example, the following information: Humans, non-human organisms (animals, plants, etc.)
・Imaginary creatures (dragons, angels, devils, etc.)
・Machines ・Amorphous entities (slime, ghosts, etc. in fantasy)
In some aspects, the record may hold information specific to the defined attribute as information of a subordinate concept. Specifically, for example, if the attribute is "inorganic matter", the record may hold a subordinate concept such as "has no eyes", and if the attribute is "virtual creature", the record may hold information such as "has multiple eyes". The server 20 may hold information for correcting the degree of change in the avatar's appearance based on the attribute information.
This allows the user to appropriately change the state of the mouth and face even when operating a non-human avatar.

項目「関連付け部位」は、アバターの1または複数の顔の部位のうち、関連付けられた部位に関する情報である。具体的には、関連付け部位は、例えば、アバターの顔の部位のうち「眉」同士が関連付けられている場合等に当該情報を保持してもよい。サーバ20は、当該関連付けられた部位同士に対し、同一の態様の変化の程度の設定を受け付けてもよい。
これにより、ユーザは、関連付けられている部位に対し、個別に態様の変化の程度の設定をすることがないため、態様の変化の程度の設定の手間を軽減することができる。
The item "associated parts" is information on associated parts of one or more facial parts of an avatar. Specifically, the associated parts may hold information on, for example, "eyebrows" among the facial parts of an avatar that are associated with each other. The server 20 may accept settings of the same degree of change in the manner for the associated parts.
This eliminates the need for the user to set the degree of change in appearance for each associated body part individually, thereby reducing the time and effort required for setting the degree of change in appearance.

項目「特殊部位の有無」は、アバターに特殊部位があるか否かを識別するための情報である。具体的には、例えば、サーバ20は、アバターの属性が人間以外である場合に、「角」、「尻尾」等の部位が存在する場合に、当該情報を保持していてもよい。ここで、特殊部位は、アバターの身体に属している必要はなく、アバターの周囲に浮遊しているオブジェクト等であってもよい。
特殊部位は、上記に限られない。例えば、アバターとは異なる生物等のオブジェクトが周囲に配置されていてもよい。
The item "presence or absence of special body part" is information for identifying whether or not the avatar has a special body part. Specifically, for example, when the avatar has attributes other than human and has body parts such as "horns" or "tail", the server 20 may hold that information. Here, the special body part does not have to belong to the avatar's body, and may be an object floating around the avatar.
The special portion is not limited to the above. For example, an object such as a living thing different from the avatar may be arranged around the avatar.

項目「特殊部位の動作設定」は、アバターの特殊部位を動作させる設定に関する情報である。具体的には、例えば、サーバ20は、アバターに特殊部位(例えば、「角」、「尻尾」等)が存在する場合に、当該部位がどのような条件をトリガーとして動作するかの情報をこのレコードに保持していてもよい。例えば、特殊部位「角」を持つアバターにおいて、「目全体の動きと連動」となっている場合、サーバ20は、ユーザが設定した目の態様の変化の程度の設定を、当該角に反映し、態様を変化させてもよい。
また、ある局面において、サーバ20は、特殊部位ごとにユーザからの態様の変化の程度の設定を受け付けてもよい。例えば、特殊部位として、アバターの身体に接続されているものではなく、アバターの周囲に浮遊しているオブジェクトの態様が変化する場合等に、サーバ20は、当該オブジェクトそれぞれに対し、ユーザからの設定の入力を受け付けてもよい。ただし、サーバ20は、当該オブジェクトについても、アバターの部位(口、顔等)の設定を反映し態様を変化させてもよい。
The item "special body part movement setting" is information on the setting for moving a special body part of the avatar. Specifically, for example, when the avatar has a special body part (e.g., "horns", "tail", etc.), the server 20 may store in this record information on what conditions are used to trigger the movement of that body part. For example, in the case of an avatar with a special body part "horns", when the special body part is set to "link with the movement of the entire eyes", the server 20 may change the state of the horns by reflecting the degree of change in the state of the eyes set by the user.
In addition, in a certain aspect, the server 20 may receive a setting of the degree of change in appearance from the user for each special body part. For example, in a case where the special body part is an object that is not connected to the body of the avatar but is floating around the avatar and changes its appearance, the server 20 may receive a setting input from the user for each of the objects. However, the server 20 may also change the appearance of the object by reflecting the setting of the avatar's body part (mouth, face, etc.).

また、サーバ20は、特殊部位が、アバターとは異なる生物等のオブジェクトであり、アバターの周囲に存在している場合に、当該オブジェクトが有する部位(例えば、目、口等)が、ユーザの音声スペクトル、またはセンシング結果に基づいて態様を変化させる度合いの程度の設定を受け付けてもよい。例えば、サーバ20は、当該オブジェクトの目の変化量を、アバターの変化量に所定の割合乗算して設定してもよいし、オブジェクトの部位ごとにユーザからの設定を受け付けてもよい。
これにより、ユーザは、人間以外のアバターを操作する場合でも、そのアバターの特性に合った操作を行うことができる。
Furthermore, when the special body part is an object such as a living thing different from the avatar and exists around the avatar, the server 20 may accept a setting of the degree to which the body part of the object (e.g., eyes, mouth, etc.) changes its appearance based on the user's voice spectrum or sensing results. For example, the server 20 may set the change amount of the object's eyes by multiplying the change amount of the avatar by a predetermined ratio, or may accept a setting from the user for each body part of the object.
This allows the user to perform operations suited to the characteristics of a non-human avatar, even when operating the avatar.

項目「備考」は、アバターの情報に特記事項などがある場合に保持される情報である。 The "Notes" item is information that is stored if there are any special notes regarding the avatar information.

図4に示すように、ウェアラブルデバイス情報データベース2023は、項目「ID」と、項目「種類」と、項目「検出精度」と、項目「補正量」と、項目「備考」と、を含む。 As shown in FIG. 4, the wearable device information database 2023 includes the items "ID", "Type", "Detection accuracy", "Correction amount", and "Notes".

項目「ID」は、ユーザが着用しているウェアラブルデバイスそれぞれを識別する情報である。 The "ID" item is information that identifies each wearable device worn by the user.

項目「種類」は、ユーザが着用しているウェアラブルデバイスの種類を示す情報である。ユーザが着用しているウェアラブルデバイスは特に限定されず、眼鏡等のアイウェア、HMD等の頭部を覆うデバイスでもよい。 The "Type" item is information that indicates the type of wearable device worn by the user. There are no particular limitations on the wearable device worn by the user, and it may be eyewear such as glasses, or a device that covers the head such as an HMD.

項目「検出精度」は、ユーザがウェアラブルデバイスを装着している際の、ユーザの目、または顔の動きのセンシングの検出精度を示す。具体的には、例えば、サーバ20は、ユーザが着用しているウェアラブルデバイスそれぞれに対し、センシングの検出精度をスコアリングし、当該情報を保持してもよい。例えば、透過率が高く、裸眼とほぼ変わらない眼鏡をユーザが着用している場合には、検出精度「〇」として情報を保持しておいてもよい。このとき、サーバ20が保持するスコアは「〇」等の記号ではなく、透過率などを基準とした「100」等の数値でもよいし、「A」、「良」等の表記でも良く、限定されない。 The "detection accuracy" item indicates the detection accuracy of sensing the movement of the user's eyes or face when the user is wearing a wearable device. Specifically, for example, the server 20 may score the detection accuracy of sensing for each wearable device worn by the user and store the information. For example, if the user is wearing glasses with high transmittance and almost the same as the naked eye, the information may be stored as a detection accuracy of "O". In this case, the score stored by the server 20 may not be a symbol such as "O", but may be a number such as "100" based on transmittance or the like, or may be a notation such as "A" or "Good", and is not limited to this.

項目「補正量」は、ウェアラブルデバイスごとに設定された、アバターの変化の程度の補正量を示す。具体的には、例えば、サーバ20は、前述の検出精度の値に基づいて、アバターの態様の変化の程度の補正量を設定する。例えば、ユーザが眼鏡を着用している場合には、その透過率等に基づいて所定の倍率を変化の程度に乗算する処理を実行してもよい。
ある局面において、サーバ20は、ユーザがHMD等のデバイスを着用しており、検出精度は低い場合でも、当該デバイスからユーザの目、または顔のセンシング結果が取得できる場合には、特に補正の処理を実行しないこととしてもよい。
サーバ20が保持するウェアラブルデバイスの情報は、他にも、マスク、眼帯等の情報であってもよい。その場合、サーバ20は、マスク、眼帯などで遮蔽されている部位について、センシング結果に基づいた態様の変化ではなく、ユーザの発話、または遮蔽されていない他の部位の設定を反映する等により、当該部位の動きをアバターに反映させてもよい。
これにより、ユーザは、配信時の自身の姿を気にすることなく、配信に臨むことができる。
The item "Correction Amount" indicates the correction amount for the degree of change of the avatar, which is set for each wearable device. Specifically, for example, the server 20 sets the correction amount for the degree of change of the avatar's appearance based on the above-mentioned detection accuracy value. For example, if the user is wearing glasses, a process may be performed to multiply the degree of change by a predetermined magnification based on the transmittance of the glasses.
In one aspect, when the user is wearing a device such as an HMD and the server 20 can obtain sensing results of the user's eyes or face from the device, even if the detection accuracy is low, the server 20 may not perform any correction processing.
The information on the wearable device held by the server 20 may also be information on a mask, an eye patch, etc. In that case, the server 20 may reflect the movement of a part covered by a mask, an eye patch, etc. in the avatar by reflecting the user's speech or the settings of other parts that are not covered, rather than a change in appearance based on the sensing results.
This allows the user to broadcast without worrying about how they look when broadcasting.

項目「備考」は、ウェアラブルデバイスの情報に特記事項等がある場合に保持される情報である。 The "Notes" item is information that is stored if there are any special notes regarding the wearable device information.

<3 動作>
以下、システム1が、ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理について説明する。
<3 Operation>
Below, a series of processes performed by the system 1 when acquiring the voice spectrum of the user's speech and changing the mouth shape of an avatar corresponding to the user in accordance with the speech of the performer based on the acquired voice spectrum will be described.

図5は、ユーザの発話の音声スペクトルを取得し、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様を演者の発話に応じて変化させる際の一連の処理を表すフローチャートである。なお、本フローチャートでは、ユーザが使用する端末装置10の制御部190が一連の処理を実行する例を開示するが、これに限られない。すなわち、一部の情報を端末装置10がサーバ20に送信し、当該処理をサーバ20で実行してもよいし、サーバ20が一連の全ての処理を実行してもよい。 Figure 5 is a flowchart showing a series of processes when acquiring an audio spectrum of a user's speech and changing the state of the mouth of an avatar corresponding to the user in accordance with the speech of the performer based on the acquired audio spectrum. Note that this flowchart discloses an example in which the control unit 190 of the terminal device 10 used by the user executes the series of processes, but is not limited to this. In other words, the terminal device 10 may transmit some information to the server 20 and the server 20 may execute the process, or the server 20 may execute the entire series of processes.

ステップS501において、端末装置10の制御部190は、アバターを操作する演者であるユーザの発話の音声スペクトルを取得する。具体的には、例えば、端末装置10の制御部190は、サーバ20の音声スペクトル取得モジュール2035と同様に、マイク141を介して取得したユーザが発話した音声から、音声スペクトルを取得する処理を制御する。例えば、制御部190は、マイク141を介して、ユーザの音声を取得し、当該音声に含まれる音声スペクトルを取得する。例えば、制御部190は、マイク141から取得した音声をフーリエ変換し、音声に含まれる音声スペクトルの情報を取得してもよい。このとき、音声スペクトルを取得する演算は、フーリエ変換に限られず、既存のあらゆる方法であってもよい。
また、ある局面において、制御部190は、ユーザの音声から母音の音声スペクトルの情報を取得してもよい。例えば、制御部190は、予めユーザから入力する母音の設定を受け付けておき、その後、ユーザからの発声を、マイク141を介して受け付けることで、受け付けた母音の設定と取得した音声スペクトルとを関連付けて記憶する。
また、ある局面において、音声スペクトル取得モジュール2035は、子音に起因する音声の情報である「t」、「c」、「h」、「k」、「m」、「r」、「s」、「n」、「w」等の音を取得し、当該記憶した母音の情報と組み合わせることで、ユーザが発話した言葉を推定してもよい。
これにより、システム1では、ユーザの音声スペクトルのうち、母音に関する音声スペクトルを別に特徴付けして記憶することができるため、アバターの口の態様の動きをより正確に変化させることができる。
In step S501, the control unit 190 of the terminal device 10 acquires a voice spectrum of the speech of the user who is the performer operating the avatar. Specifically, for example, the control unit 190 of the terminal device 10 controls a process of acquiring a voice spectrum from the voice uttered by the user acquired via the microphone 141, similar to the voice spectrum acquisition module 2035 of the server 20. For example, the control unit 190 acquires the user's voice via the microphone 141 and acquires the voice spectrum contained in the voice. For example, the control unit 190 may perform a Fourier transform on the voice acquired from the microphone 141 to acquire information on the voice spectrum contained in the voice. At this time, the calculation for acquiring the voice spectrum is not limited to a Fourier transform, and may be any existing method.
In addition, in a certain aspect, the control unit 190 may acquire information on the voice spectrum of a vowel from the voice of the user. For example, the control unit 190 accepts a vowel setting input by the user in advance, and then accepts an utterance from the user via the microphone 141, thereby storing the accepted vowel setting and the acquired voice spectrum in association with each other.
In addition, in one aspect, the voice spectrum acquisition module 2035 may acquire sounds such as "t,""c,""h,""k,""m,""r,""s,""n," and "w," which are voice information resulting from consonants, and combine them with the stored vowel information to estimate the words spoken by the user.
This allows the system 1 to separately characterize and store the voice spectrum relating to vowels among the user's voice spectrum, thereby making it possible to change the movement of the avatar's mouth shape more accurately.

ステップS502において、端末装置10の制御部190は、取得した音声スペクトルに基づいて、ユーザに対応したアバターの口の態様をユーザの発話に応じて変化させる。具体的には、例えば、端末装置10の制御部190は、サーバ20のアバター変化モジュール2036と同様に、取得したユーザの音声スペクトルから、ユーザが発話した言葉を推定し、当該推定した言葉に応じてアバターの口の態様を変化させる。例えば、制御部190は、取得したユーザの音声スペクトルが「あ」である場合に、アバターの口の態様を「あ」に対応した形に変化させる。 In step S502, the control unit 190 of the terminal device 10 changes the mouth shape of the avatar corresponding to the user in accordance with the user's speech based on the acquired voice spectrum. Specifically, for example, the control unit 190 of the terminal device 10, like the avatar change module 2036 of the server 20, estimates the words spoken by the user from the acquired user's voice spectrum and changes the mouth shape of the avatar in accordance with the estimated words. For example, when the acquired user's voice spectrum is "a," the control unit 190 changes the mouth shape of the avatar to a shape corresponding to "a."

ステップS503において、端末装置10の制御部190は、ユーザに対応したアバター及びユーザの音声を視聴者に提示する。具体的には、例えば、端末装置10の制御部190は、サーバ20のアバター提示モジュール2037と同様に、ユーザに対応するアバターの映像と、ユーザの音声とを、視聴者が使用する端末装置10のディスプレイ1302及びスピーカ142に送信し当該視聴者に提示する。このとき、視聴者は一人とは限らず、複数の視聴者の端末装置10にアバター及び音声とを提示してもよい。 In step S503, the control unit 190 of the terminal device 10 presents an avatar corresponding to the user and the user's voice to the viewer. Specifically, for example, the control unit 190 of the terminal device 10, like the avatar presentation module 2037 of the server 20, transmits an image of the avatar corresponding to the user and the user's voice to the display 1302 and speaker 142 of the terminal device 10 used by the viewer and presents them to the viewer. At this time, the viewer is not limited to one person, and the avatars and voices may be presented to the terminal devices 10 of multiple viewers.

ステップS504において、端末装置10の制御部190は、アバターの口の態様を演者の発話に応じて変化させる程度の設定を、ユーザの発話の変化よりも低い程度とすることが可能に受け付ける。具体的には、例えば、端末装置10の制御部190は、サーバ20の設定受付モジュール2038と同様に、下記を含む設定を受け付けてもよい。
・一定期間内にユーザの発話に基づいてアバターの動作を変更・更新する頻度(例えば、1秒間の更新数)の設定
ここで、ユーザの発話の変化について定義する。ユーザの発話の変化は、例えば、ユーザの発話の速度であり、下記に基づいて算出されてもよい。
・ユーザが発話した母音が変化する時間間隔(例えば、母音が「あ」から「い」に変化する際の時間間隔)
このとき、制御部190は、子音に由来する音(c、k等)を同時に取得し、同一の母音を連続して取得した場合でも、別の単語を発話しているとして発話の速度を推定してもよい。
・所定期間内に発せられる母音の数
また、このとき、制御部190は、当該設定を、ユーザの発話の変化から推定されるアバターの変化の程度よりも低い程度とすることが可能に受け付けてもよい。例えば、制御部190は、予めユーザの音声スペクトルから推定された発話(母音)に対応するように口の態様を変化させる際の所要時間を受け付けておいてもよい。制御部190は、受け付けた所要時間に基づいて、ユーザの音声スペクトルから、ユーザが母音を発話した時間の情報を取得し、予め設定された所要時間との比率を算出し、態様の変化量に乗算し、アバターの口の態様の変化量を算出する。制御部190は、取得した発話時間と、変化量とに基づき、口の態様を変化させる。例えば、ユーザが所要時間「1秒」でアバターの口が「あ」の態様に変化する設定を入力したとする。例えば、完全に「あ」の態様になるときを「100」とし、「1秒」で「100」になるように設定する。
このとき、制御部190は、1秒で態様が変化する際の度合い(口の変化量、速度)についても、ユーザから受けてつけておいてもよい。(すなわち、1秒間で口の態様が変化するうち、最初の0.5秒と残りの0.5秒とで態様の変化量に差分を設定してもよい)
制御部190は、ユーザが1秒間「あ」の音を発声した場合には、上記の変化量の設定等に基づき、1秒かけてアバターの口の態様を「あ」の態様に変化させる。しかし、ユーザが「あ」の発声を「0.5秒」しかしなかった場合には、制御部190は、アバターの口の態様の変化量を「50」まで変化させる処理を行ってもよい。
In step S504, the control unit 190 of the terminal device 10 accepts a setting for the degree to which the avatar's mouth state is changed in response to the performer's speech, which can be set to a lower degree than the change in the user's speech. Specifically, for example, the control unit 190 of the terminal device 10 may accept settings including the following, similar to the setting acceptance module 2038 of the server 20.
Setting the frequency of changing/updating the avatar's behavior based on the user's speech within a certain period of time (e.g., the number of updates per second) Here, a change in the user's speech is defined. The change in the user's speech is, for example, the speed of the user's speech, and may be calculated based on the following:
The time interval during which a vowel spoken by a user changes (for example, the time interval when a vowel changes from "a" to "i")
At this time, the control unit 190 may simultaneously acquire sounds derived from consonants (c, k, etc.), and even if the same vowel is acquired consecutively, estimate the speaking speed as if different words are being spoken.
The number of vowels uttered within a predetermined period. In addition, at this time, the control unit 190 may accept the setting to be lower than the degree of change of the avatar estimated from the change in the user's speech. For example, the control unit 190 may accept the time required for changing the state of the mouth to correspond to the speech (vowel) estimated in advance from the user's voice spectrum. Based on the accepted required time, the control unit 190 acquires information on the time when the user uttered the vowel from the user's voice spectrum, calculates a ratio to the previously set required time, multiplies it by the amount of change in the state, and calculates the amount of change in the state of the avatar's mouth. The control unit 190 changes the state of the mouth based on the acquired speech time and the amount of change. For example, it is assumed that the user inputs a setting that the avatar's mouth changes to the state of "a" in a required time of "1 second". For example, the time when the mouth completely changes to the state of "a" is set to "100", and it is set to "100" in "1 second".
At this time, the control unit 190 may also receive and record from the user the degree of change in the state in one second (amount of change in the mouth, speed) (i.e., a difference may be set in the amount of change in the state between the first 0.5 seconds and the remaining 0.5 seconds of the change in the state of the mouth in one second).
When the user utters the sound "a" for one second, the control unit 190 changes the state of the avatar's mouth to that of "a" over one second based on the setting of the amount of change, etc. However, when the user utters "a" for only "0.5 seconds", the control unit 190 may perform processing to change the amount of change in the state of the avatar's mouth up to "50".

また、制御部190は、ユーザが連続して発話した場合(例えば、「あいうえお」と発話)には、それぞれの母音の発話時間を取得し、上記処理を行ってもよい。つまり、制御部190は、それぞれの母音の発話時間から、それぞれの母音に対応したアバターの口の態様の変化量を算出し、アバターの口の態様を変化させてもよい。例えば、各母音に対応したアバターの口の態様に変化するまでの所要時間を「1秒」とし、「あ」を「0.2秒」、「い」を「0.3」秒発話していた場合、「あ」に対応した変化量は「20」であり、「い」に対応した変化量は「30」である。また、ユーザが所要時間よりも長い時間発話した場合には、制御部190は、アバターの口の態様を所用時間後もその状態を維持してもよい。
これにより、ユーザは、「あ」の音声を発声した場合に即時的にアバターを口の態様が「あ」になるのではなく、自身の発話時間に応じて徐々にアバターの口の態様を変化させることができる。また、所用時間を設定し、当該時間に満たない発話の場合に、口の態様の変化量を乗算して変化させることで、ユーザが軽く発話した際でもアバターの口の態様が大きく変化する(例えば、30程度の口の開きでもアバターの口の態様は100として変化する)ことを防ぐことができる。これにより、ユーザは、視聴者にユーザの発話とアバターの口の態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
Furthermore, when the user speaks continuously (for example, "aiueo"), the control unit 190 may obtain the speaking time of each vowel and perform the above process. That is, the control unit 190 may calculate the amount of change in the state of the avatar's mouth corresponding to each vowel from the speaking time of each vowel, and change the state of the avatar's mouth. For example, if the time required for the state of the avatar's mouth to change to that corresponding to each vowel is "1 second," and "a" is spoken for "0.2 seconds" and "i" is spoken for "0.3 seconds," the amount of change corresponding to "a" is "20," and the amount of change corresponding to "i" is "30." Furthermore, when the user speaks for a time longer than the required time, the control unit 190 may maintain the state of the state of the avatar's mouth even after the required time has passed.
This allows the user to change the avatar's mouth shape gradually according to the user's speaking time, rather than instantly changing the mouth shape to "A" when the user utters the sound "A." In addition, by setting a required time and multiplying the change in the mouth shape when the user utters less than the required time, it is possible to prevent the avatar's mouth shape from changing significantly even when the user speaks lightly (for example, even if the mouth is opened about 30 degrees, the avatar's mouth shape changes to 100). This allows the user to prevent the viewer from feeling uncomfortable due to the user's speech and the change in the avatar's mouth shape, and therefore allows the viewer to feel more immersed.

ある局面において、制御部190は、ユーザから取得した音声スペクトルの大きさ、高さ等の情報等に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの音声スペクトルの周波数(Hz)、音圧(dB)の情報を取得し、当該情報が所定の閾値を超過した場合等に、アバターの口の態様を変化させてもよい。例えば、制御部190は、所用時間「1秒」でアバターの口の態様を変化させる設定を受け付けており、ユーザの発話時間が「1秒」であったとする。このとき、制御部190は、ユーザが「0.8秒」の時点で閾値を越す音圧で発声したことを検知した場合には、アバターの口の態様を、通常よりも大きく変化(大きく口を開けた態様にする)させてもよい。このとき、制御部190は、口だけでなく、顔の部位、身体の部位についても同様の設定を反映させてもよい。
これにより、ユーザは、急に大声を上げた場合でも、アバターの口の態様に反映させることができ、より自然なアバターの動きを視聴者に見せることができる。
In a certain aspect, the control unit 190 may change the state of the mouth of the avatar based on information such as the size and height of the voice spectrum acquired from the user. Specifically, for example, the control unit 190 may acquire information on the frequency (Hz) and sound pressure (dB) of the user's voice spectrum, and may change the state of the mouth of the avatar when the information exceeds a predetermined threshold. For example, the control unit 190 accepts a setting to change the state of the mouth of the avatar in a required time of "1 second", and the user's speaking time is "1 second". At this time, when the control unit 190 detects that the user has spoken with a sound pressure exceeding the threshold at the time of "0.8 seconds", the control unit 190 may change the state of the mouth of the avatar to a larger state than usual (to a state in which the mouth is opened widely). At this time, the control unit 190 may reflect the same setting not only on the mouth but also on parts of the face and parts of the body.
This allows the state of the avatar's mouth to reflect the user's sudden loud shout, allowing the viewer to see more natural avatar movements.

他にも、制御部190は、ユーザの発話から推定される発話の速度から推定されるアバターの動作の更新頻度よりも低い値になるよう、アバターの口の態様の変化の程度の設定を受け付けてもよい。
例えば、制御部190は、ユーザの発話を一定の時間間隔で区切り、その時間間隔の最初と最後の母音に対応した口の態様にアバターを変化させる。例えば、制御部190は、1秒間で「あいうえお」と変化した場合、このうち「あいうえお」の初めの「あ」のタイミングの口の形状、および「お」の口の態様をアバターに反映させることとしてもよい。
他にも制御部190は、ユーザの発話をバッファとして一時メモリに保持する場合、「あ」から「お」へと、一定の時間間隔(例えば1秒間)をかけて変化させてもよい。また、制御部190は、ユーザの母音が変化する際に経過した時間よりも遅くアバターの口の態様が変化するように設定を受け付けてもよい。例えば、サーバ20は、ユーザの母音が「あ」から「う」に変化し、変化に1秒を要した際、アバターの口の態様が「あ」から「う」に変化するのに1.5秒の時間を要してもよい。また、このとき、サーバ20は、態様の変化を補完する処理を実行してもよい。すなわち、サーバ20は、アバターの態様を「あ」から即座に「う」に変化させるのではなく、「あ」と「う」の中間となる口の形を経由しながら口の態様を変化させてよい。
これにより、ユーザは、単語ごとに即座にアバターの口が切り替わるのではなく、実際の人の口の動きに近い態様でアバターの口の態様を変化させることができるため、視聴者がアバターを視聴する際の違和感を低減することができる。
このとき、制御部190は、ユーザから、程度の設定を、ユーザの発話速度よりも低く設定することが可能に受け付けてもよい。具体的には、例えば、制御部190は、ユーザから受け付けた発話の音声スペクトルから、ユーザの発話の速度を算出してもよい。その後、制御部190は、当該算出したユーザの発話の速度から、ユーザから受け付け可能なアバターの態様の単位時間あたりの変化量の上限値を設定することで、ユーザから程度の設定を、ユーザの発話速度よりも低く設定するように受け付ける。
これにより、ユーザは、自身の発話の変化よりも遅くアバターの変化の程度を設定でき、より滑らかにアバターの態様を変化させることができる。
Additionally, the control unit 190 may accept a setting for the degree of change in the state of the avatar's mouth so that the setting is lower than the update frequency of the avatar's movements estimated from the speech speed estimated from the user's speech.
For example, the control unit 190 divides the user's speech into fixed time intervals and changes the avatar to a state of the mouth corresponding to the first and last vowels of the time interval. For example, when the speech changes to "aiueo" in one second, the control unit 190 may reflect in the avatar the shape of the mouth at the timing of the first "a" of "aiueo" and the state of the mouth at the timing of "o."
In addition, when the control unit 190 temporarily stores the user's speech in a buffer in a memory, the control unit 190 may change the state of the avatar's mouth from "a" to "o" over a certain time interval (for example, one second). The control unit 190 may also accept a setting so that the state of the avatar's mouth changes slower than the time that elapsed when the user's vowel changes. For example, when the user's vowel changes from "a" to "u" and it takes one second for the change, the server 20 may take 1.5 seconds for the state of the avatar's mouth to change from "a" to "u". In addition, at this time, the server 20 may execute a process to complement the change in state. That is, the server 20 may change the state of the avatar's mouth by passing through a mouth shape that is intermediate between "a" and "u", rather than immediately changing the state of the avatar from "a" to "u".
This allows the user to change the movement of the avatar's mouth in a manner that is closer to the movement of a real person's mouth, rather than having the avatar's mouth instantly change for each word, thereby reducing the sense of discomfort felt by viewers when viewing the avatar.
At this time, the control unit 190 may accept from the user a setting of the degree that can be set lower than the user's speech rate. Specifically, for example, the control unit 190 may calculate the user's speech rate from the voice spectrum of the speech accepted from the user. Thereafter, the control unit 190 accepts from the user a setting of the degree to be set lower than the user's speech rate by setting an upper limit value of the amount of change per unit time of the avatar's appearance that can be accepted from the user from the calculated user's speech rate.
This allows the user to set the degree of change of the avatar to be slower than the change in the user's own speech, allowing the avatar's appearance to change more smoothly.

ステップS505において、端末装置10の制御部190は、アバターの口の態様を、設定に応じて変化させる。具体的には、例えば、端末装置10の制御部190は、ステップS604において設定した情報に基づいて、アバターの口の態様を、設定に応じて変化させ、その後、視聴者にアバター及びユーザの音声を提示する。
これにより、ユーザは、より自身の発話に合わせて滑らかにアバターの口の態様を変化させることができ、視聴者により自然な口の動きを提示することができる。
ある局面において、端末装置10の制御部190は、アバターの口の態様を変化させる際、音声スペクトルの強弱、または高低からなる群の少なくとも1つに基づいて前記口の態様を変化させてもよい。
具体的には、例えば、制御部190は、音声スペクトルの下記のパラメータを分析することで、強弱および高低を判定する。
・音声スペクトルの強弱のパラメータ:デジベル(dB)
・音声スペクトルの高低のパラメータ:ヘルツ(Hz)
例えば、制御部190は、基準となる音声スペクトルのデシベルよりも大きい音声スペクトルを取得した際に、アバターの口の態様を、基準時の口の態様の変化よりも大きく変化させてもよい。
これにより、ユーザは、繊細な音声の変化に基づいて、アバターの態様を変化させることができ、視聴者に違和感を与えることを低減することができる。
In step S505, the control unit 190 of the terminal device 10 changes the state of the avatar's mouth in accordance with the settings. Specifically, for example, the control unit 190 of the terminal device 10 changes the state of the avatar's mouth in accordance with the settings based on the information set in step S604, and then presents the avatar and the user's voice to the viewer.
This allows the user to smoothly change the state of the avatar's mouth in accordance with the user's speech, and allows the viewer to see more natural mouth movements.
In one aspect, when changing the state of the avatar's mouth, the control unit 190 of the terminal device 10 may change the state of the mouth based on at least one of the group consisting of the strength and weakness and the pitch of the voice spectrum.
Specifically, for example, the control unit 190 determines the strength and pitch by analyzing the following parameters of the audio spectrum:
- Audio spectrum intensity parameter: decibels (dB)
- Audio spectrum high/low parameter: Hertz (Hz)
For example, when the control unit 190 acquires a sound spectrum that is louder than the reference sound spectrum in decibels, the control unit 190 may change the state of the avatar's mouth more than the change in the state of the mouth at the time of the reference.
This allows the user to change the appearance of the avatar based on subtle changes in the voice, reducing the sense of discomfort felt by the viewer.

ある局面において、端末装置10の制御部190は、音声スペクトルを検出する周波数の範囲の設定を受け付け、設定される範囲の音声スペクトルを検出したことに応答して、程度の第1の設定に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ステップS604において、ユーザから、音声スペクトルを検出する周波数の範囲として、上限、下限の値の設定を受け付ける。制御部190は、マイク141を介して取得したユーザの発話の音声スペクトルを解析し、音声スペクトルの周波数が当該範囲内にあるか否かを判定する。周波数が範囲内にある場合に、制御部190は、ステップS605において、程度の第1の設定、すなわち、ユーザにより予め設定されている、アバターの態様の変化の程度の設定に基づいて、アバターの態様を変化させてもよい。 In one aspect, the control unit 190 of the terminal device 10 may receive a setting of a frequency range for detecting the voice spectrum, and in response to detecting the voice spectrum in the set range, may change the state of the avatar's mouth based on a first setting of the degree. Specifically, for example, in step S604, the control unit 190 receives from the user a setting of upper and lower limit values as the frequency range for detecting the voice spectrum. The control unit 190 analyzes the voice spectrum of the user's speech acquired via the microphone 141, and determines whether the frequency of the voice spectrum is within the range. If the frequency is within the range, the control unit 190 may change the state of the avatar in step S605 based on the first setting of the degree, i.e., the setting of the degree of change in the state of the avatar, which is set in advance by the user.

また、ある局面において、端末装置10の制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた程度の設定であって第1の設定とは異なる第2の設定に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから受け付けた、音声スペクトルを検出する周波数の範囲外の周波数を検出した時、通常の設定(第1の設定)とは異なる設定(第2の設定)に基づいてアバターの態様を変化させてもよい。例えば、ユーザが通常使用する周波数の範囲外の音声(例えば、極端な金切声等)を発話した場合、音声スペクトルは検出の範囲外となる。その場合、制御部190は、ユーザから受け付けた変化の設定(第1の設定)ではなく、検出範囲外にのみ適用される設定(第2の設定)を適用し、アバターの態様を変化させてもよい。
これにより、ユーザは、通常とは異なる動作、発話を行っても、それに応じたアバターの態様の変化をすることができ、視聴者に、より没入感を与えることができる。
In addition, in a certain aspect, the control unit 190 of the terminal device 10 may change the state of the mouth of the avatar based on a second setting, which is a setting of a predetermined degree and different from the first setting, in response to detecting a voice spectrum outside the set range. Specifically, for example, when the control unit 190 detects a frequency outside the frequency range for detecting the voice spectrum received from the user, the control unit 190 may change the state of the avatar based on a setting (second setting) different from the normal setting (first setting). For example, when the user utters a voice outside the range of frequencies normally used (for example, an extreme shriek, etc.), the voice spectrum is outside the detection range. In that case, the control unit 190 may change the state of the avatar by applying a setting (second setting) that is applied only outside the detection range, rather than the change setting (first setting) received from the user.
This allows the user to change the appearance of the avatar accordingly even if the user moves or speaks in a way that is different from normal, providing the viewer with a greater sense of immersion.

ある局面において、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、口以外の顔の部位、身体の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、アバターに下記のような動作をさせてもよい。
・顔の部位(眉、目尻、目頭、口角等)の態様を変化させる
・身体の部位(腕、手、肩等)の態様を変化させる
このほかにも、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、視聴者が視聴する画面上に、所定のオブジェクトを表示してもよい。
これにより、制御部190は、例えば、ユーザが急に大声を上げる、金切声を上げる等した際に、顔の部位、身体の部位の態様の変化、オブジェクトの表示等により、よりユーザの感情を視聴者に伝えることができる。
In one aspect, the control unit 190 may change the appearance of face parts and body parts other than the mouth in response to detecting a voice spectrum outside the set range. Specifically, for example, the control unit 190 may cause the avatar to perform the following actions in response to detecting a voice spectrum outside the set range.
- Changing the appearance of facial parts (eyebrows, corners of the eyes, inner corners of the eyes, corners of the mouth, etc.) - Changing the appearance of body parts (arms, hands, shoulders, etc.) In addition, the control unit 190 may display a specified object on the screen viewed by the viewer in response to detecting an audio spectrum outside the set range.
As a result, when the user suddenly shouts or screams, for example, the control unit 190 can better convey the user's emotions to the viewer by changing the appearance of parts of the face or body, displaying objects, etc.

ある局面において、端末装置10の制御部190は、ユーザの1または複数の感情の候補を推定し、推定したユーザの1または複数の感情の候補をユーザに提示してもよい。また、その後、制御部190は、ユーザから、1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付け、ユーザから感情の選択を受け付けた場合に、選択された感情に基づいて、アバターの口の態様を変化させる処理を実行してもよい。具体的には、例えば、制御部190は、ユーザから取得した音声スペクトルを分析し、ユーザが発話した時の感情の候補を推定する。
このとき、感情の候補は、例えば、下記を含む。
・怒り、激昂
・喜び、楽しみ
・驚き、恐怖
・悲しみ、嘆き
・平穏、安らぎ
ここで、音声スペクトルから感情の候補を推定する処理について例示する。例えば、制御部190は、ユーザから予め感情に対応した音声スペクトルの情報を受け付け、記憶部180等に記憶しておくことで、ユーザの音声スペクトルとユーザの感情とを関連付けておいてよい。その後、制御部190は、ユーザから音声スペクトルを取得すると、当該取得した音声スペクトルと波形の類似している音声スペクトルと関連付けられた感情の候補を推定する。波形が類似している、とは、例えば、複数の音声スペクトルの波形同士の類似度を判定し、波形が所定の割合一致している、あるいは複数の音声スペクトルの波形同士が所定の割合乖離している(例えば、±10%の範囲等で一致している)ことを示す。
ある局面において、音声スペクトルからユーザの感情の候補を推定する方法として、学習済みモデルを利用してもよい。例えば、端末装置10は、複数のユーザの音声スペクトルと、当該ユーザに対応する感情とを関連付けた学習済みモデルを記憶部180に保持していてもよい。その後、端末装置10の制御部190は、ユーザから音声スペクトルの入力を受け付けると、学習済みモデルに基づいて、当該ユーザの音声スペクトルに対応する感情の候補を推定し、ユーザに提示してもよい。
In a certain aspect, the control unit 190 of the terminal device 10 may estimate one or more candidate emotions of the user and present the estimated one or more candidate emotions of the user to the user. After that, the control unit 190 may receive an input operation from the user to select one emotion from the one or more candidate emotions, and when receiving the selection of the emotion from the user, may execute a process of changing the state of the avatar's mouth based on the selected emotion. Specifically, for example, the control unit 190 analyzes a voice spectrum acquired from the user and estimates candidate emotions when the user speaks.
In this case, the candidate emotions include, for example, the following:
Anger, rage Joy, enjoyment Surprise, fear Sadness, grief Calm, comfort Here, an example of a process for estimating emotion candidates from a voice spectrum is described. For example, the control unit 190 may accept information on a voice spectrum corresponding to an emotion from a user in advance, and store the information in the storage unit 180 or the like, thereby associating the user's voice spectrum with the user's emotion. After that, when the control unit 190 acquires a voice spectrum from the user, it estimates emotion candidates associated with a voice spectrum having a waveform similar to that of the acquired voice spectrum. The waveforms being similar may, for example, be determined by determining the similarity between the waveforms of a plurality of voice spectra, and the waveforms of the plurality of voice spectra may match to a predetermined degree, or may deviate from each other to a predetermined degree (for example, match within a range of ±10%).
In a certain aspect, a trained model may be used as a method for estimating candidates of a user's emotion from a voice spectrum. For example, the terminal device 10 may store a trained model in the storage unit 180 that associates the voice spectra of multiple users with emotions corresponding to the users. After that, when the control unit 190 of the terminal device 10 receives an input of a voice spectrum from a user, the control unit 190 may estimate candidates of emotions corresponding to the user's voice spectrum based on the trained model and present the candidates to the user.

制御部190は、当該推定した感情の候補をユーザに提示し、ユーザからの選択を受け付けてもよい。また、制御部190は、感情毎の口の態様の変化の程度の設定を予め受け付けており、当該ユーザから感情の選択を受け付けると、対応する感情の設定に基づいてアバターの口の態様を変化させる。
これにより、ユーザは、発話から推定される感情に基づいてアバターの態様を変化させることができる。
The control unit 190 may present candidates of the estimated emotion to the user and accept a selection from the user. The control unit 190 also accepts in advance a setting of the degree of change in the state of the mouth for each emotion, and when it accepts a selection of an emotion from the user, it changes the state of the mouth of the avatar based on the setting of the corresponding emotion.
This allows the user to change the appearance of the avatar based on the emotion estimated from the utterance.

このとき、制御部190は、ユーザの感情を推定できない場合は、ユーザが予め設定した条件に基づいて口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから取得した音声スペクトルから、ユーザの感情の候補が推定できない、すなわち、類似した音声スペクトルが推定できない場合には、予めユーザが設定した条件に基づいてアバターの口の態様を変化させてもよい。
例えば、制御部190は、ユーザから正確に音声スペクトルが取得できない場合、取得した音声スペクトルに類似する感情の候補が推定できない場合等に、ユーザから「平穏」の口の対応の設定を受け付けていると、アバターの口の態様を、「平穏」の感情に基づいた態様に変化させる。
これにより、ユーザは、感情が推定できない場合でも、アバターを予め設定した態様に変化させることができるため、視聴者への違和感を抑えることができる。
At this time, if the control unit 190 cannot estimate the user's emotion, the control unit 190 may change the state of the mouth based on conditions preset by the user. Specifically, for example, if the control unit 190 cannot estimate a candidate for the user's emotion from the voice spectrum acquired from the user, that is, if a similar voice spectrum cannot be estimated, the control unit 190 may change the state of the avatar's mouth based on conditions preset by the user.
For example, when the control unit 190 is unable to accurately acquire a voice spectrum from the user, when the control unit 190 is unable to estimate a candidate emotion similar to the acquired voice spectrum, or when the control unit 190 has accepted a mouth correspondence setting for “calm” from the user, the control unit 190 changes the state of the avatar's mouth to a state based on the emotion of “calm”.
This allows the user to change the avatar into a preset state even when the emotion cannot be estimated, thereby reducing the sense of discomfort felt by the viewer.

また、ある局面において、制御部190は、推定された感情に基づいて、アバターの口とは異なる身体の部位を動作させてもよい。具体的には、例えば、制御部190は、アバターの口とは異なる身体の部位として、肩、腕、手等の部位を動作させてもよい。他にも、制御部190は、アバターの口とは異なる身体の部位として、特殊部位(例えば、アバターが人間以外の場合、羽、尻尾、周囲に浮遊するオブジェクト等)を動作させてもよい。例えば、制御部190は、ユーザから取得した音声スペクトルから推定された感情が「怒り」等であった場合、アバターの腕を振り上げる動作をしてもよい。
また、このとき、制御部190は、取得した音声スペクトルから推定した感情ではなく、ユーザに感情の候補を提示し、ユーザから選択された感情に基づいて、アバターの口とは異なる身体の部位を動作させてもよい。
In addition, in a certain aspect, the control unit 190 may operate a body part other than the mouth of the avatar based on the estimated emotion. Specifically, for example, the control unit 190 may operate a body part such as a shoulder, an arm, or a hand as a body part other than the mouth of the avatar. In addition, the control unit 190 may operate a special body part (for example, wings, a tail, or an object floating around the avatar if the avatar is not human) as a body part other than the mouth of the avatar. For example, the control unit 190 may raise the arm of the avatar when the emotion estimated from the voice spectrum acquired from the user is "anger" or the like.
In addition, at this time, the control unit 190 may present candidate emotions to the user, rather than an emotion estimated from the acquired voice spectrum, and move a part of the avatar's body other than the mouth based on the emotion selected by the user.

この他にも、制御部190は、取得した音声スペクトルから推定される感情に基づいて、態様を変化させるアバターの口とは異なる1または複数の身体の部位の候補をユーザに提示し、ユーザからの態様を変化させる部位の選択を受け付けることに応答して、当該部位の態様を変化させてもよい、
これにより、ユーザは、自身の音声スペクトルから推定された感情に基づいて、アバターの口以外の部位も動作させることができ、より視聴者に没入感を与えることができる。
In addition, the control unit 190 may present to the user one or more candidates for body parts other than the mouth of the avatar whose behavior is to be changed based on the emotion estimated from the acquired voice spectrum, and change the behavior of the body part in response to receiving a selection from the user of the body part whose behavior is to be changed.
This allows the user to move parts of the avatar other than the mouth based on emotions estimated from the user's voice spectrum, providing a greater sense of immersion to the viewer.

ある局面において、端末装置10の制御部190は、ユーザの発話速度が、ユーザにより設定されている口の態様の変化の程度から推定される発話速度よりも、所定の速度乖離した場合には、ユーザにより設定された程度の設定ではなく、発話速度に基づいて口の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの発話から発話速度を算出する。発話速度の算出方法は、例えば、制御部190は、ユーザから取得した音声スペクトルからユーザが単位時間あたりの単語数を算出することで、発話速度の値として定義してもよい。また、制御部190は、ユーザにより設定されている口の態様の変化の程度から、単位時間当たりの発話数を算出し、アバターの口の態様の変化の程度から推定されるユーザの発話速度を算出する。その後、制御部190は、当該ユーザの発話から算出した発話速度と、アバターの口の態様の変化の程度から推定される発話速度との間で、所定の速度乖離した場合には、ユーザにより設定された程度の設定ではなく、ユーザの発話から算出された発話速度に基づいて口の態様を変化させてもよい。
これにより、ユーザは、自身の発話速度が、あまりにもアバターの口の態様の変化の程度から推定される発話速度よりも乖離する場合には、発話速度に基づいてアバターの口の態様を変化させることができる。そのため、視聴者に違和感を与えることを低減することができる。
In a certain aspect, when the user's speech rate deviates by a predetermined rate from the speech rate estimated from the degree of change in the mouth state set by the user, the control unit 190 of the terminal device 10 may change the mouth state based on the speech rate, instead of the degree of setting set by the user. Specifically, for example, the control unit 190 calculates the speech rate from the user's speech. As a method of calculating the speech rate, for example, the control unit 190 may define the speech rate value by calculating the number of words per unit time by the user from the voice spectrum acquired from the user. In addition, the control unit 190 calculates the number of utterances per unit time from the degree of change in the mouth state set by the user, and calculates the user's speech rate estimated from the degree of change in the mouth state of the avatar. Thereafter, if there is a predetermined deviation between the speech rate calculated from the user's speech and the speech rate estimated from the degree of change in the attitude of the avatar's mouth, the control unit 190 may change the attitude of the mouth based on the speech rate calculated from the user's speech rather than the degree set by the user.
This allows the user to change the avatar's mouth movement based on the speech rate when the user's own speech rate deviates too much from the speech rate estimated from the degree of change in the avatar's mouth movement, thereby reducing the sense of discomfort felt by the viewer.

ある局面において、端末装置10の制御部190は、ユーザからアバターの属性を受け付け、当該属性に基づいて、アバターの口の態様の変化量を補正してもよい。具体的には、例えば、制御部190は、アバターの属性として、人間、または人間とは口の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて、口の態様の変化量を補正してもよい。例えば、制御部190は、サーバ20の変化補正モジュール2040と同様に、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、制御部190は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
In a certain aspect, the control unit 190 of the terminal device 10 may receive an attribute of the avatar from the user, and correct the amount of change in the state of the avatar's mouth based on the attribute. Specifically, for example, the control unit 190 may receive information on either a human or a non-human whose mouth changes differently from a human's as an attribute of the avatar, and correct the amount of change in the state of the mouth based on the attribute. For example, the control unit 190 may obtain information on whether the avatar operated by the user is a human or a non-human whose mouth changes differently from a human's, similar to the change correction module 2040 of the server 20, and execute a process of correcting the degree of change in the state of the avatar based on the information. For example, if the attribute of the avatar operated by the user is a "dragon", the movement of the eyes, mouth, etc. may behave differently from that of a human. In that case, the control unit 190 may correct the amount of change in the corners of the mouth, the amount of change in the eyeballs, etc. to a shape that matches the avatar based on the attribute of the "dragon".
This allows users to present more natural movements to viewers based on the results of their own speech and facial sensing, even when they are operating an avatar that is not human.

<4 画面例>
図6~図9は、本発明において開示される、システム1を利用し、アバターを操作する演者であるユーザがアバターを操作する際の各種画面例を示す図である。
<4 Screen example>
6 to 9 are diagrams showing examples of various screens when a user, who is an actor operating an avatar, operates an avatar using the system 1 disclosed in the present invention.

図6は、ユーザが自身の母音の音声スペクトルをシステム1に登録する際の画面例である。 Figure 6 shows an example of a screen when a user registers the audio spectrum of their own vowels in the system 1.

図6において、端末装置10の制御部190は、ディスプレイ1302に、設定画面601、アバター602等を表示する。
設定画面601は、ユーザから各母音に対応した音声スペクトルの情報を取得し関連付ける際にユーザに表示される設定画面である。例えば、端末装置10の制御部190は、ユーザの音声スペクトルと関連付ける母音として「A」「I」「U」「E」「O」「N」の6文字の設定画面を当該画面に表示する。その際、制御部190は、現在ユーザの音声スペクトルと関連付けている母音の情報を、当該画面の上部に表示していてもよい。
また、制御部190は、設定画面601の下部に、ユーザが使用しているマイク141の情報を表示してもよい。制御部190は、ユーザが使用するマイク141の種類により周波数特性が異なる場合には、使用されるマイク141毎にユーザの音声スペクトルと母音の情報とを関連付けてもよい。
In FIG. 6, the control unit 190 of the terminal device 10 displays a setting screen 601, an avatar 602, and the like on the display 1302.
The setting screen 601 is a setting screen displayed to the user when acquiring and associating information on the voice spectrum corresponding to each vowel from the user. For example, the control unit 190 of the terminal device 10 displays a setting screen for six characters, "A", "I", "U", "E", "O", and "N", as vowels to be associated with the user's voice spectrum on the screen. At this time, the control unit 190 may display information on the vowels currently associated with the user's voice spectrum at the top of the screen.
Furthermore, the control unit 190 may display information about the microphone 141 used by the user at the bottom of the setting screen 601. When frequency characteristics differ depending on the type of microphone 141 used by the user, the control unit 190 may associate the user's voice spectrum with vowel information for each microphone 141 used.

アバター602は、ユーザの発話に応じて口の態様を変化させる対象となるアバターである。制御部190は、ユーザから取得した音声スペクトルに応答させて、当該アバター602の口の態様を変化させる。例えば、制御部190は、ユーザが「あ(A)」の母音を発声すると、当該発声が、母音の「あ(A)」として保持されている音声スペクトルと合致するかを判定する。その後、ユーザの発声が「あ(A)」である場合に、制御部190は、アバター602の口の態様を「あ(A)」の形に変化させる。
これにより、ユーザは、母音ごとに正確にアバターの口の態様を変化させることができる。
The avatar 602 is an avatar whose mouth shape is changed in response to the user's speech. The control unit 190 changes the mouth shape of the avatar 602 in response to the voice spectrum acquired from the user. For example, when the user utters the vowel "a (A)", the control unit 190 determines whether the utterance matches the voice spectrum stored for the vowel "a (A)". Thereafter, when the user utters "a (A)", the control unit 190 changes the mouth shape of the avatar 602 to the shape of "a (A)".
This allows the user to accurately change the state of the avatar's mouth for each vowel.

図7は、ユーザがアバターの口、または顔の部位の態様の変化の程度の設定を行う際の画面例を示す。 Figure 7 shows an example screen when the user sets the degree of change in the appearance of the avatar's mouth or facial parts.

図7において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面701、ユーザ映像702、設定画面703、アバター704等を表示する。 In FIG. 7, the control unit 190 of the terminal device 10 displays an information display screen 701, a user image 702, a setting screen 703, an avatar 704, etc. on the display 1302.

情報表示画面701は、ユーザから取得した音声スペクトルの周波数、および検出可能な音声スペクトルの範囲、検出範囲外となった場合の態様の設定等を表示する画面である。他にも、端末装置10は、ユーザの発話から算出されるユーザの発話の速度、ユーザが設定可能な態様の変化の程度。ユーザの顔のセンシング結果等を当該画面に表示し、ユーザが設定可能な各種条件を視覚的に表示してもよい。 The information display screen 701 is a screen that displays the frequency of the voice spectrum acquired from the user, the range of the detectable voice spectrum, the setting of the behavior when it is outside the detection range, etc. In addition, the terminal device 10 may display the user's speech speed calculated from the user's speech, the degree of change in behavior that the user can set, the results of sensing the user's face, etc. on the screen, and visually display various conditions that the user can set.

ユーザ映像702は、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。端末装置10の制御部190は、ユーザが端末装置10の前で何かしらの発声を行うことで、端末装置10に備えられているカメラ160およびマイク141により、ユーザ自身の映像と、ユーザの発話の音声スペクトル等の情報を、ユーザ映像702および情報表示画面701に表示する。 The user image 702 is a screen that displays an image of the user himself/herself captured by the camera 160 provided in the terminal device 10. When the user makes some kind of speech in front of the terminal device 10, the control unit 190 of the terminal device 10 displays an image of the user himself/herself and information such as the audio spectrum of the user's speech on the user image 702 and the information display screen 701 using the camera 160 and microphone 141 provided in the terminal device 10.

設定画面703は、ユーザがアバターの態様の変化の程度を設定するための画面である。端末装置10の制御部190は、例えば、下記の設定をユーザに提示し、入力を受け付ける。
・口の切り替え速さ
口の切り替え速さは、ユーザから取得した音声スペクトルに対し、どの程度の時間で最大の大きさ(100)に到達するかの所要時間に関する情報である。
・目の動き:上方向の最大値
・目の動き:下方向の最大値
・目の動き:横方向の最大値
・目の動き:感度(端末のセンシング感度)
感度とは、ユーザの目等をセンシングした際に、アバターに反映させる感度のことを示す。具体的には、例えば、感度は、ユーザが真正面を向いている際の目等の位置の座標を「0」とした時に、左右方向に目等を移動させた際に、アバターの目等を実際の目等の移動量に対しどの程度反映させるかを設定するパラメータである。このとき、感度は、100の時に比例関数であり、0に近づくほど下に凸の関数であってもよい。つまり、感度100の場合は、ユーザの目の動きとアバターの目の動きは完全に同期しており、感度が50等の場合には、ユーザの目等が中心からあまり動かない場合にはアバターの目等の動きはユーザの目の移動距離よりも小さく反映され、目尻などに目が移動した場合には、アバターの目等の動きはユーザの目の移動距離よりも大きく反映される。これにより、ユーザがあまり目を動かさない場合に、アバターの目が即時的に反映され「ギョロギョロ」と動くことを防ぐことができる。
また、上記感度の設定は、目に限られない。目以外の顔の部位、身体の部位についても、同様の設定を受け付けてもよい。
このとき、端末装置10の制御部190は、ユーザから受け付け可能な変化の程度の設定として、ユーザの発話の変化よりも低い程度で受け付けてよい。例えば、制御部190は、ユーザの発話から推定さえるアバターの変化の度合い(オブジェクトの変化量、オブジェクトの変化速度)よりも低くなるよう、ユーザから当該設定を受け付けてもよい。このとき、制御部190は、ユーザが設定可能範囲にない数値等を設定しようとした場合には、所定のアラートを表示しても良いし、設定画面がスライダ式などの場合には、予めその数値にならないようにロックしていてもよい。
これにより、ユーザは、自身の発話の変化よりもアバターを緩やかに動かすことで、視聴者に与えるアバターの変化の度合いを滑らかにすることができ、より視聴者に没入感を与えることができる。
The setting screen 703 is a screen for the user to set the degree of change in the appearance of the avatar. The control unit 190 of the terminal device 10 presents the following settings to the user, for example, and accepts input.
Mouth Switching Speed The mouth switching speed is information about the time required for the voice spectrum acquired from the user to reach the maximum volume (100).
・Eye movement: Maximum upward movement ・Eye movement: Maximum downward movement ・Eye movement: Maximum horizontal movement ・Eye movement: Sensitivity (device sensing sensitivity)
Sensitivity refers to the sensitivity reflected in the avatar when sensing the user's eyes, etc. Specifically, for example, the sensitivity is a parameter that sets the extent to which the avatar's eyes, etc. are reflected in the actual movement amount of the eyes, etc., when the user moves the eyes, etc., in the left-right direction when the coordinates of the position of the eyes, etc., when facing directly ahead are set to "0". In this case, the sensitivity may be a proportional function at 100, and may be a function that is convex downward as it approaches 0. In other words, when the sensitivity is 100, the movement of the user's eyes and the movement of the avatar's eyes are completely synchronized, and when the sensitivity is 50, etc., when the user's eyes, etc., do not move much from the center, the movement of the avatar's eyes, etc. is reflected less than the movement distance of the user's eyes, and when the eyes move to the corners of the eyes, the movement of the avatar's eyes, etc. is reflected more than the movement distance of the user's eyes. This makes it possible to prevent the avatar's eyes from moving "wandering" when the user does not move their eyes much.
The sensitivity setting is not limited to the eyes, and similar settings may be accepted for other parts of the face and body other than the eyes.
At this time, the control unit 190 of the terminal device 10 may accept a setting of the degree of change that can be accepted from the user that is lower than the change in the user's speech. For example, the control unit 190 may accept the setting from the user so that the setting is lower than the degree of change of the avatar (amount of change in the object, speed of change in the object) estimated from the user's speech. At this time, if the user attempts to set a value that is not within the settable range, the control unit 190 may display a predetermined alert, or if the setting screen is a slider type, may lock the value in advance so that it does not become that value.
This allows the user to move the avatar more slowly than the user's own speech, thereby smoothing the degree of change in the avatar felt by the viewer, thereby giving the viewer a greater sense of immersion.

アバター704は、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから設定画面703の設定を受け付けると、ユーザ映像702とアバター704とを同期させてユーザに表示させてもよい。
これにより、ユーザは、自身の設定によりアバターの態様を変化させる際に、事前に違和感などを確認することができる。
The avatar 704 is an avatar that changes its appearance based on settings received from a user. When the control unit 190 of the terminal device 10 receives settings on the setting screen 703 from the user, the control unit 190 may synchronize the user video 702 and the avatar 704 and display them to the user.
This allows the user to check in advance for any discomfort or other issues that may arise when changing the appearance of the avatar based on the user's own settings.

図8は、ユーザの発話から、ユーザの1または複数の感情の候補を推定し、当該推定したユーザの1または複数の感情に基づいて、アバターの態様を変化させる画面例を示す。 Figure 8 shows an example screen in which one or more candidate emotions of a user are estimated from the user's speech, and the appearance of an avatar is changed based on the estimated one or more emotions of the user.

図8において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面801、ユーザ映像802、アバター803等を表示する。 In FIG. 8, the control unit 190 of the terminal device 10 displays an information display screen 801, a user image 802, an avatar 803, etc. on the display 1302.

情報表示画面801は、図7における、情報表示画面701と同様に、ユーザから取得した音声スペクトルの周波数等を表示する画面であり、図8においては、音声スペクトルから推定した1または複数の感情の候補、およびユーザがアバターの態様に反映させる感情の設定の候補を提示してもよい。
制御部190は、当該提示された設定の候補に対するユーザからの選択を受け付けることで、アバターの態様の変化、例えば、アバターの口の態様、口以外の顔の部位の態様を変化させてもよい。
Information display screen 801, like information display screen 701 in Figure 7, is a screen that displays the frequency of the voice spectrum obtained from the user, etc., and in Figure 8, it may present one or more candidate emotions estimated from the voice spectrum, as well as candidate emotion settings that the user will reflect in the appearance of the avatar.
The control unit 190 may change the appearance of the avatar, for example, the appearance of the avatar's mouth or parts of the face other than the mouth, by accepting a user's selection from the presented setting candidates.

ユーザ映像802は、図7におけるユーザ映像702と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 User video 802, like user video 702 in FIG. 7, is a screen that displays an image of the user himself/herself captured via camera 160 provided on terminal device 10.

アバター803は、図7におけるアバター704と同様に、ユーザから受け付けた感情の設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから受け付けた感情の設定に基づいて、アバターの態様(例えば、口)を変化させユーザに表示する。このとき、制御部190は、アバターの口の態様に限らず、アバターの他の部位の態様を変化、または動作させてもよい。例えば、制御部190は、ユーザから選択を受け付けた感情が「怒り」である場合に、アバターの口の態様を「怒り」の感情に基づいて変化させ、かつ、アバターの他の部位として、顔の眉、目尻等の部位の態様を変化させてもよい。他にも、制御部190は、アバターの身体の部位(例えば、腕を振り上げる動作をさせるなど)を当該感情に基づいて動作させてもよい。他にも、制御部190は、当該感情に基づいて、アバターを表示させる画面に感情に対応した所定のオブジェクトなどを表示させてもよい。
これにより、ユーザは、発話から推定される感情に基づいて、アバターに様々な変化、動作をさせることができるため、視聴者により没入感を与えることができる。
The avatar 803 is an avatar that changes its appearance based on the emotion setting received from the user, similar to the avatar 704 in FIG. 7. The control unit 190 of the terminal device 10 changes the appearance of the avatar (e.g., the mouth) based on the emotion setting received from the user and displays it to the user. At this time, the control unit 190 may change or operate the appearance of other parts of the avatar, not limited to the appearance of the avatar's mouth. For example, when the emotion selected and received from the user is "anger", the control unit 190 may change the appearance of the avatar's mouth based on the emotion of "anger", and may change the appearance of other parts of the avatar, such as the eyebrows and the corners of the eyes. In addition, the control unit 190 may operate a part of the avatar's body (e.g., swinging up the arms, etc.) based on the emotion. In addition, the control unit 190 may display a predetermined object corresponding to the emotion on the screen displaying the avatar based on the emotion.
This allows the user to cause the avatar to undergo various changes and actions based on emotions estimated from the user's speech, thereby providing a greater sense of immersion to the viewer.

また、ある局面において、制御部190は、ユーザ情報1801またはユーザ情報データベース2021を参照し、ユーザがよく使う感情の情報を取得し、アバターに反映する感情の候補として提示してもよい。
これにより、ユーザは、発話に関係なく、演出等でアバターの態様を変化させようとしている時でも、簡易にアバターの態様を変化させることができる。
In addition, in a certain aspect, control unit 190 may refer to user information 1801 or user information database 2021 to obtain information on emotions frequently used by the user, and present this information as a candidate for an emotion to be reflected in the avatar.
This allows the user to easily change the state of the avatar even when the user is trying to change the state of the avatar for dramatic effect or the like, regardless of speech.

図9は、ユーザが人間とは異なる属性のアバターに対し、音声スペクトル等に基づいて各種設定を行う画面例を示す。 Figure 9 shows an example screen where a user can configure various settings based on the voice spectrum, etc., for an avatar with attributes different from those of a human.

図9において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面901、ユーザ映像902、設定画面903、アバター904等を表示する。 In FIG. 9, the control unit 190 of the terminal device 10 displays an information display screen 901, a user image 902, a setting screen 903, an avatar 904, etc. on the display 1302.

情報表示画面901は、図7、図8における情報表示画面701、801と同様に、ユーザから取得した音声スペクトルの周波数、および検出可能な音声スペクトルの範囲、検出範囲外となった場合の態様の設定等を表示する画面である。このとき、制御部190は、情報表示画面901において、ユーザと対応するアバターの属性に関する情報を表示してもよい。例えば、制御部190は、ユーザ情報1801またはユーザ情報データベース2021を参照し、ユーザと対応するアバターの情報を取得することで、当該画面にアバターの属性に関する情報を表示してもよい。 The information display screen 901, like the information display screens 701 and 801 in Figures 7 and 8, is a screen that displays the frequency of the voice spectrum acquired from the user, the range of the detectable voice spectrum, settings for when it is outside the detection range, etc. At this time, the control unit 190 may display information on the attributes of an avatar corresponding to the user on the information display screen 901. For example, the control unit 190 may refer to the user information 1801 or the user information database 2021 to acquire information on the avatar corresponding to the user, and display information on the avatar attributes on the screen.

ユーザ映像902は、図7、図8におけるユーザ映像702、802と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 The user image 902 is a screen that displays an image of the user himself/herself captured via the camera 160 provided on the terminal device 10, similar to the user images 702 and 802 in Figures 7 and 8.

設定画面903は、図7における設定画面703と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。図9において、制御部190は、設定画面703においてユーザに提示した画面の他に、アバターの属性に基づいて推奨される設定のサジェスト等を表示してもよい。具体的には、例えば、制御部190は、アバター情報1802、またはアバター情報データベース2022等を参照し、アバターによる態様の変化の度合いの補正量に関する情報を取得し、通常の人間のアバターの態様を変化させる際の基本的な設定に、当該補正結果を乗算した設定を、ユーザに提示してもよい。
これにより、ユーザは、自身のアバターが人間とは異なる属性である場合にも、違和感のない態様の変化の設定を行うことができる。
また、ある局面において、制御部190は、アバターに特殊部位が存在する場合に、ユーザに対し、当該部位の態様の変化の度合いを設定するための画面を表示してもよい。制御部190は、例えば、他の部位の設定と同期する場合には、当該他のアバターの部位の変化の設定を反映してもよいし、ユーザに対し、別途詳細に態様の変化の度合いを設定する画面を提示してもよい。
これにより、ユーザは、自身のアバターに特殊な部位が存在する場合でも、自由に態様の変化の度合いを設定することができ、視聴者により没入感を与えることができる。
The setting screen 903 is a screen for the user to set the degree of change in the avatar's appearance, similar to the setting screen 703 in Fig. 7. In Fig. 9, the control unit 190 may display, in addition to the screen presented to the user on the setting screen 703, setting suggestions recommended based on the attributes of the avatar, etc. Specifically, for example, the control unit 190 may refer to the avatar information 1802 or the avatar information database 2022, etc., to acquire information on the correction amount of the degree of change in appearance caused by the avatar, and present to the user a setting obtained by multiplying the correction result by a basic setting for changing the appearance of a normal human avatar.
This allows the user to set changes in appearance that do not seem strange even if the user's avatar has attributes different from those of a human.
In addition, in a certain aspect, when the avatar has a special body part, the control unit 190 may display a screen for the user to set the degree of change in the appearance of the special body part. For example, when synchronizing with the setting of another body part, the control unit 190 may reflect the setting of the change in the body part of the other avatar, or may present the user with a screen for separately setting the degree of change in appearance in detail.
This allows the user to freely set the degree of change in appearance even if the user's avatar has a special body part, providing a greater sense of immersion to the viewer.

アバター904は、図7、図8におけるアバター704、803と同様に、ユーザから受け付けた感情の設定に基づいて態様を変化させるアバターである。図9において、制御部190は。アバター904にアバターの特殊部位等を同時に表示していてもよい。
これにより、ユーザは、アバターに特殊部位が存在する場合でも、その態様の変化を確認しながら視聴者に配信を行うことができる。
Avatar 904 is an avatar that changes its appearance based on an emotion setting received from a user, similar to avatars 704 and 803 in Fig. 7 and Fig. 8. In Fig. 9, control unit 190 may simultaneously display a special part of the avatar on avatar 904.
This allows the user to broadcast to viewers while checking changes in the appearance of the avatar, even if the avatar has a special body part.

<第2の実施形態>
これまでは、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させる一連の処理について説明した。
第2の実施形態に係る発明では、ユーザの発話の音声スペクトル以外にも、ユーザのセンシング結果に基づいて、アバターの態様、例えば、1または複数の顔の部位の態様を変化させることができる。以下、当該一連の処理について説明する。なお、第1の実施形態と共通の構成を持つ部分(例えば、端末装置10、サーバ20等)についての説明は省略し、第2の実施形態に特有の構成、処理についてのみ説明する。
Second Embodiment
So far, a series of processes for changing the state of the avatar's mouth based on the voice spectrum of the user's speech has been described.
In the invention according to the second embodiment, in addition to the voice spectrum of the user's speech, the aspect of the avatar, for example, the aspect of one or more parts of the face, can be changed based on the user's sensing results. The series of processes will be described below. Note that the description of parts having the same configuration as the first embodiment (for example, the terminal device 10, the server 20, etc.) will be omitted, and only the configuration and process unique to the second embodiment will be described.

<5 第2の実施形態における動作>
以下、システム1が、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理について説明する。
<5. Operation in the Second Embodiment>
Below, we will explain a series of processes that system 1 performs when it senses the movement of one or more facial parts of a user's face and changes the appearance of one or more facial parts of an avatar corresponding to the user based on the sensed movement of the one or more facial parts.

図10は、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングし、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる際の一連の処理を表すフローチャートである。なお、本フローチャートにおいても、ユーザが使用する端末装置10の制御部190が一連の処理を実行する例を開示するが、これに限られない。すなわち、一部の情報を端末装置10がサーバ20に送信し、当該処理をサーバ20で実行してもよいし、サーバ20が一連の全ての処理を実行してもよい。 Figure 10 is a flowchart showing a series of processes when sensing the movement of one or more facial parts of a user's face, and changing the state of one or more facial parts of an avatar corresponding to the user based on the sensed movement of the one or more facial parts. Note that this flowchart also discloses an example in which the control unit 190 of the terminal device 10 used by the user executes the series of processes, but is not limited to this. That is, the terminal device 10 may send some information to the server 20 and the server 20 may execute the process, or the server 20 may execute the entire series of processes.

ステップS1001において、端末装置10の制御部190は、ユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングする。具体的には、例えば、端末装置10の制御部190は、ユーザが端末装置10に備えられたカメラ160の前で顔を動作させた際のユーザの1または複数の顔の部位をセンシングする。このとき、制御部190が行うセンシングの方法は、既存のあらゆる技術であってよい。例えば、制御部190は、カメラ160にセンシング機能を備えさせてユーザの顔の部位をセンシングしても良いし、モーションセンサ170によりユーザの顔の部位をセンシングしても良い。
このとき、端末装置10の制御部190は、ユーザの1または複数の顔の部位として、ユーザの眉、瞼、目頭、目尻、眼球、瞳孔、口からなる群の少なくとも1つをセンシングする。しかし、当該部位は限定されず、他の顔の部位(頬、額等)であってもよい。
In step S1001, the control unit 190 of the terminal device 10 senses the movement of one or more facial parts of the user. Specifically, for example, the control unit 190 of the terminal device 10 senses one or more facial parts of the user when the user moves his/her face in front of the camera 160 provided in the terminal device 10. At this time, the sensing method performed by the control unit 190 may be any existing technology. For example, the control unit 190 may sense the user's facial parts by providing the camera 160 with a sensing function, or may sense the user's facial parts by the motion sensor 170.
At this time, the control unit 190 of the terminal device 10 senses at least one of the group consisting of the user's eyebrows, eyelids, inner corners of the eyes, outer corners of the eyes, eyeballs, pupils, and mouth as one or more facial parts of the user. However, the part is not limited to this and may be another facial part (cheeks, forehead, etc.).

ステップS1002において、端末装置10の制御部190は、センシングした1または複数の顔の部位の動きに基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させる。具体的には、例えば、制御部190は、ユーザの1または複数の顔の部位と、アバターの1または複数の顔の部位を予め対応付けておく。その後、制御部190は、センシングにより取得したユーザの1または複数の顔の部位と対応するアバターの顔の部位の態様を、当該センシング結果に基づいて変化させる。例えば、制御部190は、ユーザの目とアバターの目とを対応付けていた場合、ユーザの目のセンシング結果に基づいて、アバターの目の態様を変化させる。 In step S1002, the control unit 190 of the terminal device 10 changes the appearance of one or more facial parts of the avatar corresponding to the user based on the sensed movement of one or more facial parts. Specifically, for example, the control unit 190 associates one or more facial parts of the user with one or more facial parts of the avatar in advance. Thereafter, the control unit 190 changes the appearance of the facial part of the avatar that corresponds to the one or more facial parts of the user acquired by sensing based on the sensing result. For example, if the control unit 190 has associated the user's eyes with the avatar's eyes, it changes the appearance of the avatar's eyes based on the sensing result of the user's eyes.

ステップS1003において、端末装置10の制御部190は、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定を受け付け、度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させる。具体的には、例えば、制御部190は、ユーザのセンシング結果に追随させる度合いとして、下記を含む条件の設定を受け付ける。
・アバターの態様の変化量(例えば、目等の開閉の変化量等)
これにより、ユーザは、自身のセンシング結果にアバターの態様の変化を追随させる度合いを細かく調整でき、動きの違和感を視聴者に与えることを防ぐことができる。
In step S1003, the control unit 190 of the terminal device 10 accepts a setting of the degree to which the appearance of one or more facial parts of the avatar is made to follow the sensing result, and changes the appearance of one or more facial parts of the avatar according to the setting of the degree. Specifically, for example, the control unit 190 accepts a setting of conditions including the following as the degree to which the appearance is made to follow the user's sensing result.
-Changes in the appearance of the avatar (for example, changes in the opening and closing of the eyes, etc.)
This allows the user to finely adjust the degree to which the changes in the avatar's appearance follow the user's own sensing results, preventing the viewer from feeling uncomfortable with the movements.

第2の実施形態において、制御部190は、第1の実施形態における、アバターの口の態様の変化の度合いの設定と同様に、アバターの顔の部位、顔以外の身体の部位の態様の変化の度合いについても、ユーザからの設定を受け付けてもよい。すなわち、制御部190は、予めユーザから、ユーザが各種母音に対応する口の態様、各種顔、身体の部位をセンシングにより取得しておいてもよい。制御部190は、ユーザのセンシング結果から、予め取得していたユーザの口、顔の部位、身体の部位の変化との差異を特定し、予め取得しておいたセンシング結果との比率を算出し、態様の変化量に乗算することで、アバターの口、顔の部位、身体の部位の態様の変化量を算出してもよい。制御部190は、算出した変化量に基づき、アバターの口、顔の部位、身体の部位の態様を変化させてもよい。例えば、ユーザが口、眉を一部しか動かさない(予め100の位置を設定しておき、センシング結果から、50の位置までしかユーザが口、眉等を動かしていない)等の場合には、アバターの口、眉等も50までしか動かさない等の処理を行ってよい。
これにより、ユーザは、自身のセンシング結果に応じて徐々にアバターの態様を変化させることができ、自然な動きを視聴者に見せることができる。これにより、ユーザは、視聴者にユーザの動作とアバターの態様の変化とに生じる違和感を与えることを防ぐことができるため、より視聴者に没入感を与えることができる。
In the second embodiment, the control unit 190 may accept a setting from the user for the degree of change in the appearance of the avatar's face parts and body parts other than the face, similar to the setting of the degree of change in the appearance of the avatar's mouth in the first embodiment. That is, the control unit 190 may acquire from the user in advance, by sensing, the appearance of the mouth, various faces, and body parts corresponding to various vowels. The control unit 190 may specify a difference from the user's sensing result and the changes in the user's mouth, face parts, and body parts acquired in advance, calculate a ratio to the previously acquired sensing result, and multiply the ratio by the amount of change in the appearance to calculate the amount of change in the appearance of the avatar's mouth, face parts, and body parts. The control unit 190 may change the appearance of the avatar's mouth, face parts, and body parts based on the calculated amount of change. For example, if the user only moves part of their mouth and eyebrows (a position of 100 is set in advance, and sensing results show that the user only moves their mouth, eyebrows, etc. up to position 50), processing may be performed such that the avatar's mouth, eyebrows, etc. also only move up to position 50.
This allows the user to gradually change the state of the avatar according to the result of his/her own sensing, and allows the viewer to see natural movements. This allows the user to prevent the viewer from feeling uncomfortable due to the user's movements and the change in the avatar's state, and thus gives the viewer a greater sense of immersion.

ある局面において、制御部190は、アバターの1または複数の顔の部位のうち、関連付けられた所定の部位同士について、同一の設定を受け付けてもよい。具体的には、制御部190は、ユーザから、アバターの1または複数の顔の部位のうち、例えば、下記の部位同士を関連付ける設定を受け付け、当該部位同士に対して度合いの設定に関する同一の設定を受け付けてもよい。
・眉、目等の顔の部位のうち対になっている部位
・眉と目のように連動して動作する部位
・顔の部位と顔以外の身体の部位(肩、腕、足、首等)
他にも、制御部190は、後述するアバターの属性によって、顔の部位と顔以外の特殊部位とを関連付ける設定を受け付けてもよい。
これにより、ユーザは、複数の顔の部位のうち、対になっている部位、連動して動作する部位などに対し、個別に度合いを設定することがなく、簡易にアバターの態様を変化させ配信することができる。
In one aspect, the control unit 190 may accept the same settings for predetermined associated parts among one or more facial parts of the avatar. Specifically, the control unit 190 may accept settings from the user that associate, for example, the following parts among one or more facial parts of the avatar, and may accept the same settings regarding the degree settings for the parts:
・Paired facial parts such as eyebrows and eyes ・Parts that move in tandem, such as eyebrows and eyes ・Facial parts and other body parts (shoulders, arms, legs, neck, etc.)
Additionally, the control unit 190 may accept settings that associate facial parts with special non-facial parts according to avatar attributes, which will be described later.
This allows the user to easily change and distribute the appearance of the avatar without having to set individual degrees for paired parts of the face or parts that move in conjunction with each other.

ある局面において、端末装置10の制御部190は、ユーザに対し、センシングされた結果に追随させる度合いの設定の1または複数の候補を提示し、ユーザから1または複数の度合いの設定の候補の選択を受け付けてもよい。また、その後、制御部190は、選択を受け付けた度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザのセンシング結果を取得した際に、ユーザからセンシング結果に追随させる度合いの設定を受け付けるのではなく、追随の程度を1または複数の候補(プリセット)として提示してもよい。このとき、候補の提示方法として、制御部190は、予めユーザから使用する追随の程度の1または複数の候補の情報を受け付けておき、当該情報に基づいて候補を提示してもよい。
これにより、ユーザは、センシング結果に基づいてアバターの顔の部位の態様を変化させる際、逐一追随の程度を設定せずともよく、より配信を簡易に行うことができる。
In a certain aspect, the control unit 190 of the terminal device 10 may present one or more candidates for the setting of the degree of following the sensed result to the user and accept the selection of one or more candidate settings of the degree from the user. In addition, the control unit 190 may then change the state of one or more facial parts of the avatar based on the setting of the degree selected and accepted. Specifically, for example, when acquiring the sensing result of the user, the control unit 190 may present the degree of following as one or more candidates (presets) instead of accepting the setting of the degree of following from the user. In this case, as a method of presenting the candidates, the control unit 190 may receive information of one or more candidates of the degree of following to be used from the user in advance and present the candidates based on the information.
This allows the user to change the appearance of parts of the avatar's face based on the sensing results without having to set the degree of tracking each time, making distribution easier.

また、ある局面において、端末装置10の制御部190は、ユーザからアバターの属性を受け付け、当該属性に基づいて、度合いを補正してもよい。ここで、制御部190は、属性として、人間、または人間とは1または複数の顔の部位の態様の変化の様子が異なる人間以外のいずれかの情報を受け付け、当該属性に基づいて度合いを補正してもよい。例えば、制御部190は、サーバ20の変化補正モジュール2040と同様に、ユーザが操作するアバターが人間、または人間とは態様の変化の様子が異なる人間以外のいずれかであるかの情報を取得し、当該情報に基づいて、アバターの態様の変化の程度を補正する処理を実行してもよい。例えば、ユーザが操作するアバターの属性が「竜」である場合には、目、口等の動きが、人間とは異なる挙動を示す可能性がある。その場合、制御部190は、当該「竜」の属性に基づいて、口角の変化量、眼球の変化量等を、アバターに沿った形に補正してもよい。
これにより、ユーザは、人間とは異なるアバターを操作していても、自身の発話、顔のセンシング結果に基づいて、より自然な動きを視聴者に提示することができる。
In addition, in a certain aspect, the control unit 190 of the terminal device 10 may receive an attribute of the avatar from the user and correct the degree based on the attribute. Here, the control unit 190 may receive information on either a human or a non-human whose appearance changes differently from that of a human in one or more facial parts as an attribute, and correct the degree based on the attribute. For example, the control unit 190 may obtain information on whether the avatar operated by the user is a human or a non-human whose appearance changes differently from that of a human, similar to the change correction module 2040 of the server 20, and execute a process of correcting the degree of change in the appearance of the avatar based on the information. For example, if the attribute of the avatar operated by the user is "dragon", the movement of the eyes, mouth, etc. may behave differently from that of a human. In that case, the control unit 190 may correct the amount of change in the corners of the mouth, the amount of change in the eyeballs, etc., to a shape that matches the avatar based on the attribute of the "dragon".
This allows users to present more natural movements to viewers based on the results of their own speech and facial sensing, even when they are operating an avatar that is not human.

他にも、ある局面において、端末装置10の制御部190は、ユーザの音声スペクトルを取得し、取得した音声スペクトルから、ユーザの発話の変化の程度の情報を取得してもよい。その後、制御部190は、度合いの設定を、ユーザの発話の変化の程度に関連付けられた範囲で設定可能に受け付け、当該度合いの設定に従って、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、マイク141等を介し、ユーザの発話から音声スペクトルを取得し、ユーザの発話の変化の程度として、下記の情報を取得してもよい。
・ユーザが単位時間に発話した単語の量(発話の速度)
・ユーザの音声の大小の変化
・ユーザの音声の高低の変化
例えば、制御部190は、下記のような処理を実行することで、ユーザの発話の変化から推定されるアバターの変化の程度よりも低くアバターの態様を変化させる。
・ユーザから取得した音声スペクトルにおける母音の変化にかかわらず、一定の時間間隔で、口の動きをアバターに反映させる
制御部190は、当該取得した発話の変化の程度の情報に基づいて、センシング結果に追随する度合いの程度の設定可能な範囲を特定する。例えば、制御部190は、上記取得した発話の変化の程度から前述の変化量等が、当該発話の変化の程度を超えないようにユーザからの度合いの設定を受け付けることとしてもよい。
これにより、ユーザは、センシング結果だけでなく、音声スペクトルの情報に基づいてアバターの顔の態様を変化させることができ、より自然な動きでアバターを視聴者に見せることができる。
In another aspect, the control unit 190 of the terminal device 10 may acquire a voice spectrum of the user, and acquire information on the degree of change in the user's speech from the acquired voice spectrum. The control unit 190 may then accept a degree setting that is settable within a range associated with the degree of change in the user's speech, and change the appearance of one or more facial parts of the avatar according to the degree setting. Specifically, for example, the control unit 190 may acquire a voice spectrum from the user's speech via the microphone 141 or the like, and acquire the following information as the degree of change in the user's speech:
- The amount of words spoken by the user per unit time (speech rate)
- Changes in the volume of the user's voice - Changes in the pitch of the user's voice For example, the control unit 190 performs the following processing to change the avatar's appearance to a degree less than the degree of change in the avatar estimated from changes in the user's speech.
- Reflecting the mouth movement in the avatar at regular time intervals, regardless of the change in vowels in the voice spectrum acquired from the user. The control unit 190 specifies a settable range of the degree of tracking the sensing result based on the acquired information on the degree of change in speech. For example, the control unit 190 may accept a degree setting from the user so that the aforementioned amount of change does not exceed the degree of change in speech from the acquired degree of change in speech.
This allows the user to change the facial expression of the avatar based on not only the sensing results but also voice spectrum information, allowing the avatar to appear to viewers with more natural movements.

このとき、制御部190は、音声スペクトルを検出する周波数の範囲の設定を受け付け、当該設定される範囲の音声スペクトルを検出したことに応答して、度合いの第1の設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザの発話から音声スペクトルを取得する際、検出可能な範囲の設定をユーザから受け付けていてもよい。制御部190は、ユーザから取得した音声スペクトルが当該周波数の範囲内にある場合には、上述したユーザから受け付けた度合いの設定に基づいてアバターの顔の態様を変化させてもよい。
また、制御部190は、設定される範囲外の音声スペクトルを検出したことに応答して、予め定められた度合いの設定であって、第1の度合いの設定とは異なる第2の度合いの設定に基づいて、アバターの1または複数の顔の部位の態様を変化させてもよい。このとき、第2の度合いの設定は、例えば、ユーザが極端に高い周波数の声(金切声等)を発した場合等に、ユーザから受け付けた度合い(第1の度合い)の設定ではなく、予め設定されていた、当該周波数に対応した度合い(第2の度合い)を反映してアバターの顔の態様を変化させてもよい。
これにより、ユーザは、通常発声しない周波数の発声を行った場合でも、アバターの顔の態様を変化させることができ、視聴者により没入感を与えることができる。
At this time, the control unit 190 may receive a setting of a frequency range for detecting the voice spectrum, and in response to detecting the voice spectrum in the set range, change the appearance of one or more facial parts of the avatar based on a first setting of the degree. Specifically, for example, when acquiring a voice spectrum from the user's speech, the control unit 190 may receive a setting of a detectable range from the user. When the voice spectrum acquired from the user is within the frequency range, the control unit 190 may change the appearance of the avatar's face based on the setting of the degree received from the user.
In addition, in response to detecting a voice spectrum outside the set range, the control unit 190 may change the appearance of one or more facial parts of the avatar based on a second degree setting that is a predetermined degree setting and different from the first degree setting. In this case, the second degree setting may be, for example, when the user utters a voice with an extremely high frequency (such as a shriek), not the setting of the degree (first degree) received from the user, but a preset degree (second degree) corresponding to the frequency may be reflected to change the appearance of the avatar's face.
This allows the user to change the facial expression of the avatar even when the user speaks at a frequency that is not normally spoken, thereby providing a greater sense of immersion to the viewer.

また、ある局面において、端末装置10の制御部190は、ユーザの口の動きがセンシングできない場合には、ユーザの発話の変化の程度に基づいて、アバターの口の態様を変化させてもよい。具体的には、例えば、制御部190は、下記のような場合に、前述したように、ユーザのセンシング結果ではなく、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させてもよい。
・ユーザが口にマスク等を着用しており、口の動きをセンシングできない場合
・端末装置10のセンシング機能のエラーにより口の動きをセンシングできない場合
・外部環境により口の動きをセンシングできない場合
これにより、ユーザは、例えば、マスクを着用して配信しなければならない時などでも、アバターの口の態様を自身の発話に合わせて変化させることができる。
In addition, in a certain aspect, the control unit 190 of the terminal device 10 may change the state of the avatar's mouth based on the degree of change in the user's speech when the movement of the user's mouth cannot be sensed. Specifically, for example, the control unit 190 may change the state of the avatar's mouth based on the voice spectrum of the user's speech, rather than the result of sensing the user, as described above, in the following cases.
- When the user is wearing a mask or the like over their mouth and mouth movements cannot be sensed - When mouth movements cannot be sensed due to an error in the sensing function of the terminal device 10 - When mouth movements cannot be sensed due to the external environment This allows the user to change the state of the avatar's mouth to match their own speech, even when, for example, they have to broadcast while wearing a mask.

ある局面において、端末装置10の制御部190は、ユーザの1または複数の感情の候補を推定し、推定したユーザの1または複数の感情の候補をユーザに提示してもよい。その後、制御部190は、ユーザから、1または複数の感情の候補のうち、1つの感情を選択するための入力操作を受け付け、選択された感情に基づいて、ユーザに対応するアバターの1または複数の顔の部位の態様を変化させてもよい。具体的には、例えば、制御部190は、ユーザから予め、ユーザの感情に応じた顔の部位のセンシング結果を取得して関連付けておいてもよい。その後、制御部190は、カメラ160等を介してユーザの顔のセンシングを行い、当該関連付けた感情に含まれる顔のセンシング結果と全て、または一部が合致するかを判定する。その後、制御部190は、当該判定結果に基づいて、ユーザの感情の候補を提示し、ユーザからの選択を受け付け、当該選択された感情に基づいて、アバターの顔の態様を変化させてもよい。
また、このとき、ユーザの感情を推定できない場合、制御部190は、ユーザが予め設定した設定に基づいて1または複数の顔の部位の態様を変化させてもよい。
例えば、制御部190は、ユーザの顔の部位のセンシングが正確に行えない場合、センシング結果に類似する感情の候補が推定できない場合等に、ユーザから「平穏」の口の対応の設定を受け付けていると、アバターの口の態様を、「平穏」の感情に基づいた態様に変化させる。
これにより、ユーザは、センシングが正確に行えない場合でも、感情の候補を選択することで、アバターの態様の変化にユーザの感情を反映させることができる。
In a certain aspect, the control unit 190 of the terminal device 10 may estimate one or more candidates of the user's emotions and present the estimated one or more candidates of the user's emotions to the user. Thereafter, the control unit 190 may accept an input operation from the user to select one of the one or more candidates of emotions, and change the state of one or more facial parts of the avatar corresponding to the user based on the selected emotion. Specifically, for example, the control unit 190 may acquire and associate sensing results of facial parts corresponding to the user's emotions in advance from the user. Thereafter, the control unit 190 senses the user's face via the camera 160 or the like, and determine whether all or a part of the sensing results of the face included in the associated emotion match. Thereafter, the control unit 190 may present candidates of the user's emotions based on the determination result, accept a selection from the user, and change the state of the avatar's face based on the selected emotion.
At this time, if the user's emotion cannot be estimated, the control unit 190 may change the appearance of one or more facial parts based on a setting preset by the user.
For example, if the control unit 190 is unable to accurately sense parts of the user's face, or if it is unable to estimate a candidate emotion similar to the sensing result, and has received a mouth correspondence setting for "calm" from the user, the control unit 190 changes the state of the avatar's mouth to a state based on the emotion of "calm."
This allows the user to select emotion candidates so that the change in the avatar's appearance reflects the user's emotion, even if sensing cannot be performed accurately.

また、ある局面において、端末装置10の制御部190は、ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合、センシング結果が取得できた部位の度合いを、関連付けられている、当該部位に適用してもよい。具体的には、例えば、制御部190は、ユーザが眼帯等を着用しており、片目のセンシングが困難、または不可能である場合、センシング結果を取得したもう一方の目の変化の度合いを反映させてもよい。これにより、ユーザは、眼帯などを着用している場合でも、ユーザに対応するアバターはその影響を受けずに態様を変化させることができる。 In addition, in a certain aspect, when the control unit 190 of the terminal device 10 is unable to obtain sensing results for at least one associated part of one or more parts of the user's face, the control unit 190 may apply the degree of change for the part for which sensing results were obtained to the associated part. Specifically, for example, when the user is wearing an eye patch or the like and sensing of one eye is difficult or impossible, the control unit 190 may reflect the degree of change in the other eye for which sensing results were obtained. This allows the avatar corresponding to the user to change its appearance without being affected even when the user is wearing an eye patch or the like.

さらに、ある局面において、端末装置10の制御部190は、ユーザが装着しているウェアラブルデバイスの情報を取得し、取得したウェアラブルデバイスの情報に基づいて、度合いの設定を補正してもよい。また、制御部190は、度合いの設定を補正する際、ユーザから、補正の度合いを調整するための入力操作を受け付けてもよい。具体的には、例えば、制御部190は、ウェアラブルデバイス情報1803、またはウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。その後、制御部190は、前述のサーバ20における変化補正モジュール2040と同様の処理を実行し、度合いの設定を補正してもよい。 Furthermore, in one aspect, the control unit 190 of the terminal device 10 may acquire information about a wearable device worn by the user, and correct the degree setting based on the acquired information about the wearable device. Furthermore, when correcting the degree setting, the control unit 190 may accept an input operation from the user to adjust the degree of correction. Specifically, for example, the control unit 190 refers to the wearable device information 1803 or the wearable device information database 2023, and acquires information about the wearable device worn by the user. Thereafter, the control unit 190 may execute a process similar to that of the change correction module 2040 in the server 20 described above, and correct the degree setting.

ある局面において、端末装置10の制御部190は、アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示してもよい。具体的には、制御部190は、アバターの1または複数の顔の部位のうち、例えば、眉等の対になっている部位を関連付け、当該部位同士で、変化の度合いが所定の差異を超えないように度合いの数値を受け付け可能に設定する。その後、制御部190は、ユーザから当該部位の変化の度合いの入力を受け付ける際に、当該閾値を超過する数値の入力を受け付けた場合に、ユーザに対しアラート等の通知を提示してもよい。
これにより、ユーザは、関連付けて態様を変化させる部位に対し、極端に変化の度合いに差が生じた状態で態様を変化させることを防ぐことができる。
また、制御部190は、当該設定を対になる部位以外にも、頬と眉等、連動して変化する部位(特殊部位等も含んでいてもよい)に対して設定しても良い。
In one aspect, the control unit 190 of the terminal device 10 may present a predetermined notification to the user when a difference in the degree setting between pre-associated parts of one or more facial parts of the avatar exceeds a predetermined threshold. Specifically, the control unit 190 associates, for example, paired parts such as eyebrows among one or more facial parts of the avatar, and sets the degree numerical value to be acceptable so that the degree of change between the parts does not exceed a predetermined difference. Thereafter, when accepting an input of the degree of change of the part from the user, the control unit 190 may present a notification such as an alert to the user if an input of a numerical value exceeding the threshold is accepted.
This allows the user to prevent changing the state of the associated body part with its state changed in a state where there is an extreme difference in the degree of change.
Furthermore, the control unit 190 may apply the same settings to other parts that change in conjunction with each other (which may include special parts, etc.), such as the cheeks and eyebrows, in addition to paired parts.

このとき、制御部190は、所定の通知をユーザに提示する際、度合いの差が所定の閾値を超過した部位を異なる態様で当該数値とともにユーザに提示してもよい。具体的には、例えば、制御部190は、ユーザから目の態様の変化の程度の度合いの入力を受け付けた際、両方の目の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、目を異なる態様(例えば、異なる色の態様)でユーザに通知と共に提示してもよい。このとき、制御部190が提示する異なる態様は、色、ポップアップ通知、該当する部位の形状を変化させるなど、限定されない。
さらに、制御部190は、所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示してもよい。例えば、制御部190は、上述した通知を表示する画面とは異なる画面上に、度合いの差が適正範囲(視聴者に違和感を与えない範囲)である場合のアバターの態様の変化の様子を表示してもよい。
これにより、ユーザは、自身が設定した態様の変化の程度の度合いが所定の閾値を超過した場合に、適切な数値に設定した場合の態様の変化の様子とともに確認することができる。
At this time, when presenting a predetermined notification to the user, the control unit 190 may present the part whose degree difference exceeds a predetermined threshold in a different manner together with the numerical value. Specifically, for example, when the control unit 190 receives an input of the degree of change in the state of the eyes from the user, if the degree of change in both eyes is too large (for example, the amount of change in one eye is too large, etc.), the control unit 190 may present the eyes in a different manner (for example, in a different color manner) together with the notification to the user. At this time, the different manner presented by the control unit 190 may be, but is not limited to, a color, a pop-up notification, or changing the shape of the corresponding part.
Furthermore, when presenting a predetermined notification to the user, the control unit 190 may present to the user how at least one or more facial parts change when the difference in degree is set within a predetermined range. For example, the control unit 190 may display, on a screen different from the screen displaying the above-mentioned notification, how the appearance of the avatar changes when the difference in degree is within an appropriate range (a range that does not cause discomfort to the viewer).
This allows the user to check, when the degree of change in behavior that he or she has set exceeds a specified threshold, how the behavior would change if the user set it to an appropriate value.

また、ある局面において、端末装置10の制御部190は、度合いの設定を受け付けた1または複数の顔の部位と関連する部位の度合いを、予め定められた値に設定してもよい。また、制御部190は、アバターの1または複数の部位ごとに、予め定められた範囲内で度合いの設定を受け付けてもよい。具体的には、例えば、制御部190は、アバターの1または複数の顔の部位と関連する部位として、下記の部位を関連付け、ユーザから度合いの設定を受け付けてもよい。
・角、尻尾、羽等、アバターが人間以外であった場合に備えている特殊部位
・アバターの顔とは異なる身体の部位(腕、肩、足など)
これにより、ユーザは、アバターが人間以外、また、無機物などであった場合にも、自身のセンシング結果に追随して態様を変化させることができる。
In addition, in a certain aspect, the control unit 190 of the terminal device 10 may set the degree of a part associated with one or more facial parts for which a degree setting has been accepted to a predetermined value. The control unit 190 may also accept a degree setting within a predetermined range for one or more parts of the avatar. Specifically, for example, the control unit 190 may associate the following parts as parts associated with one or more facial parts of the avatar, and accept a degree setting from the user:
- Special body parts for when the avatar is not human, such as horns, tails, or wings. - Body parts that are different from the avatar's face (arms, shoulders, legs, etc.).
This allows the user to change the appearance of the avatar in accordance with the results of his or her own sensing, even if the avatar is non-human or an inorganic object.

<6 第2の実施形態における画面例>
図11~図17は、第2の実施形態において開示される、ユーザのセンシング結果に基づいてアバターの態様を変化させる際の各種画面例を示す図である。
<6. Screen Examples in the Second Embodiment>
11 to 17 are diagrams showing various examples of screens when the state of an avatar is changed based on the result of sensing of a user, as disclosed in the second embodiment.

図11は、ユーザの1または複数の顔の部位の動きをセンシングし、当該センシングした1または複数の顔の部位の動きに基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。 Figure 11 shows an example screen in which the movement of one or more parts of a user's face is sensed, and the appearance of one or more parts of the face of the corresponding avatar is changed based on the sensed movement of the one or more parts of the face.

図11において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1101、ユーザ映像1102、設定画面1103、アバター1104等を表示する。 In FIG. 11, the control unit 190 of the terminal device 10 displays an information display screen 1101, a user image 1102, a setting screen 1103, an avatar 1104, etc. on the display 1302.

情報表示画面1101は、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このとき、端末装置10の制御部190は、下記の選択をユーザから受け付けてもよい。
・ユーザの顔の部位のうち、センシングを実行する部位の選択
・センシングした部位のうち、関連付ける部位の選択
・変化の度合いの候補の選択
これにより、ユーザは、場合によりセンシング箇所を減らすこともでき、配信時の負荷を減らすことができる。
The information display screen 1101 is a screen that displays the sensing results of the user's facial parts, associated parts of the facial parts, presets for the degree of change in appearance, etc. At this time, the control unit 190 of the terminal device 10 may accept the following selections from the user.
- Selection of the parts of the user's face on which sensing will be performed - Selection of the parts to associate from the sensed parts - Selection of candidate degrees of change This allows the user to reduce the number of sensing points in some cases, thereby reducing the load during distribution.

ユーザ映像1102は、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。端末装置10の制御部190は、端末装置10に備えられているカメラ160により、ユーザ自身の映像を、ユーザ映像1102に表示する。 The user image 1102 is a screen that displays an image of the user himself/herself captured via the camera 160 provided in the terminal device 10. The control unit 190 of the terminal device 10 displays an image of the user himself/herself in the user image 1102 using the camera 160 provided in the terminal device 10.

設定画面1103は、ユーザがアバターの態様の変化の程度を設定するための画面である。端末装置10の制御部190は、例えば、下記の設定をユーザに提示し、入力を受け付ける。
・口の切り替え速さ
・目の動き:上方向の最大値
・目の動き:下方向の最大値
・目の動き:横方向の最大値
・目の動き:感度
このとき、端末装置10の制御部190は、アバターの1または複数の顔の部位の態様を、センシングされた結果に追随させる度合いの設定として、演者の発話の変化の程度に関連付けられた範囲で設定可能に受け付けてよい。例えば、制御部190は、ユーザの発話から推定さえるアバターの変化の度合い(オブジェクトの変化量、オブジェクトの変化速度)よりも低くなるよう、ユーザから当該設定を受け付けてもよい。このとき、制御部190は、ユーザが設定可能範囲にない数値等を設定しようとした場合には、所定のアラートを表示しても良いし、設定画面がスライダ式などの場合には、予めその数値にならないようにロックしていてもよい。
これにより、ユーザは、自身の発話の変化よりもアバターを緩やかに動かすことで、視聴者に与えるアバターの変化の度合いを滑らかにすることができ、より視聴者に没入感を与えることができる。
The setting screen 1103 is a screen for the user to set the degree of change in the appearance of the avatar. The control unit 190 of the terminal device 10 presents the following settings to the user, for example, and accepts input.
・Mouth switching speed ・Eye movement: maximum value in the upward direction ・Eye movement: maximum value in the downward direction ・Eye movement: maximum value in the horizontal direction ・Eye movement: sensitivity In this case, the control unit 190 of the terminal device 10 may accept the setting of the degree to which the state of one or more facial parts of the avatar follows the sensed result, in a range associated with the degree of change in the performer's speech. For example, the control unit 190 may accept the setting from the user so that the setting is lower than the degree of change of the avatar estimated from the user's speech (amount of change of the object, speed of change of the object). In this case, if the user tries to set a value that is not within the settable range, the control unit 190 may display a predetermined alert, or if the setting screen is a slider type, may lock the value in advance so that it does not become the value.
This allows the user to move the avatar more slowly than the user's own speech, thereby smoothing the degree of change in the avatar felt by the viewer, thereby giving the viewer a greater sense of immersion.

アバター1104は、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。端末装置10の制御部190は、ユーザから設定画面1103の設定を受け付けると、ユーザ映像1102とアバター1104とを同期させてユーザに表示させてもよい。
これにより、ユーザは、自身の設定によりアバターの態様を変化させる際に、事前に違和感などを確認することができる。
The avatar 1104 is an avatar that changes its appearance based on settings received from a user. When the control unit 190 of the terminal device 10 receives settings on the setting screen 1103 from the user, the control unit 190 may synchronize the user video 1102 and the avatar 1104 and display them to the user.
This allows the user to check in advance for any discomfort or other issues that may arise when changing the appearance of the avatar based on the user's own settings.

図12は、ユーザの1または複数の感情を候補を推定し、ユーザから選択された感情に基づいて、対応するアバターの1または複数の顔の部位の態様を変化させる際の画面例を示す。 Figure 12 shows an example screen in which one or more candidate emotions of a user are estimated, and the appearance of one or more facial features of the corresponding avatar is changed based on the emotion selected by the user.

図12において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1201、ユーザ映像1202、設定画面1203、アバター1204等を表示する。 In FIG. 12, the control unit 190 of the terminal device 10 displays an information display screen 1201, a user image 1202, a setting screen 1203, an avatar 1204, etc. on the display 1302.

情報表示画面1201は、図11における情報表示画面と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、センシング結果から特定されるユーザの1または複数の感情の候補の情報を表示してもよい。
制御部190は、ユーザから感情の候補の選択を受け付けると、当該感情に対応したアバターの態様の変化の程度の度合いを反映させる。
例えば、制御部190は、ユーザから予め、ユーザの感情に応じた顔の部位のセンシング結果を取得して関連付けておいてもよい。その後、制御部190は、カメラ160等を介してユーザの顔のセンシングを行い、当該関連付けた感情に含まれる顔のセンシング結果と全て、または一部が合致するかを判定する。その後、制御部190は、当該判定結果に基づいて、ユーザの感情の候補を提示し、ユーザからの選択を受け付け、当該選択された感情に基づいて、アバターの顔の態様を変化させてもよい。
また、このとき、ユーザの感情を推定できない場合、制御部190は、ユーザが予め設定した設定に基づいて1または複数の顔の部位の態様を変化させてもよい。
これにより、ユーザは、センシングが正確に行えない場合でも、感情の候補を選択することで、アバターの態様の変化にユーザの感情を反映させることができる。
11, the information display screen 1201 is a screen that displays the sensing results of the user's facial parts, associated parts of the facial parts, pre-set candidates (presets) of the degree of change in appearance, etc. In addition, the control unit 190 may display information on one or more candidate emotions of the user identified from the sensing results on the screen.
When the control unit 190 receives a selection of a candidate emotion from the user, the control unit 190 reflects the degree of change in the appearance of the avatar that corresponds to the selected emotion.
For example, the control unit 190 may acquire from the user in advance sensing results of facial parts corresponding to the user's emotions and associate them with each other. Thereafter, the control unit 190 senses the user's face via the camera 160 or the like, and determines whether all or a part of the sensing results of the face included in the associated emotion match. Thereafter, the control unit 190 may present candidates for the user's emotions based on the determination result, accept a selection from the user, and change the facial appearance of the avatar based on the selected emotion.
At this time, if the user's emotion cannot be estimated, the control unit 190 may change the appearance of one or more facial parts based on a setting preset by the user.
This allows the user to select emotion candidates so that the change in the avatar's appearance reflects the user's emotion, even if sensing cannot be performed accurately.

ユーザ映像1202は、図11におけるユーザ映像1102と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 User video 1202, like user video 1102 in FIG. 11, is a screen that displays an image of the user himself/herself captured via camera 160 provided on terminal device 10.

設定画面1203は、図11における設定画面1103と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。 The setting screen 1203, like the setting screen 1103 in FIG. 11, is a screen for the user to set the degree of change in the avatar's appearance.

アバター1204は、図11におけるアバター1104と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。 Avatar 1204, like avatar 1104 in FIG. 11, is an avatar that changes appearance based on settings received from the user.

図13は、ユーザの1または複数の顔の部位のうち、関連づけられている部位の少なくとも1つのセンシング結果が取得できない場合のアバターの態様の変化の程度の度合いを設定する際の画面例を示す。 Figure 13 shows an example screen for setting the degree of change in the avatar's appearance when sensing results cannot be obtained for at least one associated part of one or more parts of the user's face.

図13において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1351、ユーザ映像1352、設定画面1353、アバター1354等を表示する。 In FIG. 13, the control unit 190 of the terminal device 10 displays an information display screen 1351, a user image 1352, a setting screen 1353, an avatar 1354, etc. on the display 1302.

情報表示画面1351は、図12における情報表示画面1201と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しており、ユーザの顔の一部を遮蔽する備品、装着具等の情報を表示してもよい。
例えば、制御部190は、ユーザが眼帯等を着用しており、片目のセンシングが困難、または不可能である場合、センシング結果を取得したもう一方の目の変化の度合いを反映させてもよい。これにより、ユーザは、眼帯などを着用している場合でも、ユーザに対応するアバターはその影響を受けずに態様を変化させることができる。
12, the information display screen 1351 is a screen that displays the sensing results of the parts of the user's face, the parts of the face that are associated with each other, the presets for the degree of change in the appearance, etc. In addition, the control unit 190 may display, on the screen, information on accessories, attachments, etc. that are worn by the user and that cover a part of the user's face.
For example, when a user is wearing an eye patch or the like and sensing of one eye is difficult or impossible, the control unit 190 may reflect the degree of change in the other eye from which the sensing result is obtained. This allows the avatar corresponding to the user to change its appearance without being affected by an eye patch or the like even if the user is wearing an eye patch or the like.

ユーザ映像1352は、図12におけるユーザ映像1202と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 The user video 1352 is a screen that displays an image of the user himself/herself captured via the camera 160 provided on the terminal device 10, similar to the user video 1202 in FIG. 12.

設定画面1353は、図12における設定画面1203と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。 The setting screen 1353, like the setting screen 1203 in FIG. 12, is a screen for the user to set the degree of change in the avatar's appearance.

アバター1354は、図12におけるアバター1204と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。 Avatar 1354, like avatar 1204 in FIG. 12, is an avatar that changes appearance based on settings received from the user.

図14は、ユーザが眼鏡等のウェアラブルデバイスを装着している際に、アバターの態様の変化の程度の度合いを補正する際の画面例を示す。 Figure 14 shows an example screen when correcting the degree of change in the avatar's appearance when the user is wearing a wearable device such as glasses.

図14において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1401、ユーザ映像1402、設定画面1403、アバター1404等を表示する。 In FIG. 14, the control unit 190 of the terminal device 10 displays an information display screen 1401, a user image 1402, a setting screen 1403, an avatar 1404, etc. on the display 1302.

情報表示画面1401は、図13における情報表示画面1351と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しているウェアラブルデバイスの情報、ウェアラブルデバイスごとの変化の度合いの補正量の情報等を表示してもよい。
例えば、制御部190は、ウェアラブルデバイス情報1803、またはウェアラブルデバイス情報データベース2023を参照し、ユーザが着用しているウェアラブルデバイスの情報を取得する。その後、制御部190は、前述のサーバ20における変化補正モジュール2040と同様の処理を実行し、度合いの設定を補正してもよい。
13, the information display screen 1401 is a screen that displays the sensing results of the user's facial parts, associated parts of the facial parts, presets for the degree of change in the aspect that has been set in advance, etc. In addition, the control unit 190 may display, on the screen, information on the wearable device worn by the user, information on the correction amount for the degree of change for each wearable device, etc.
For example, the control unit 190 acquires information on the wearable device worn by the user by referring to the wearable device information 1803 or the wearable device information database 2023. Thereafter, the control unit 190 may execute a process similar to that of the change correction module 2040 in the server 20 described above, and correct the degree setting.

ユーザ映像1402は、図13におけるユーザ映像1352と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 User video 1402, like user video 1352 in FIG. 13, is a screen that displays an image of the user himself/herself captured via camera 160 provided on terminal device 10.

設定画面1403は、図13における設定画面1353と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。 The setting screen 1403, like the setting screen 1353 in FIG. 13, is a screen for the user to set the degree of change in the avatar's appearance.

アバター1404は、図13におけるアバター1354と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。 Avatar 1404, like avatar 1354 in FIG. 13, is an avatar that changes appearance based on settings received from the user.

図15は、ユーザの口の動きがセンシングできない場合に、発話の変化の程度に基づいて、アバターの口の態様を変化させる際の画面例を示す。 Figure 15 shows an example screen in which the state of the avatar's mouth is changed based on the degree of change in speech when the user's mouth movements cannot be sensed.

図15において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1501、ユーザ映像1502、設定画面1503、アバター1504等を表示する。 In FIG. 15, the control unit 190 of the terminal device 10 displays an information display screen 1501, a user image 1502, a setting screen 1503, an avatar 1504, etc. on the display 1302.

情報表示画面1501は、図14における情報表示画面1401と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。このほか、制御部190は、当該画面に、ユーザが着用しているマスク等の情報、ユーザの発話から取得した音声スペクトルの情報等を表示してもよい。
例えば、制御部190は、ユーザが口にマスク等を着用しており、口の動きをセンシングできない場合には、前述したように、ユーザのセンシング結果ではなく、ユーザの発話の音声スペクトルから、アバターの口の態様を変化させてもよい。
これにより、ユーザは、例えば、マスクを着用して配信しなければならない時などでも、アバターの口の態様を自身の発話に合わせて変化させることができる。
14, the information display screen 1501 is a screen that displays the sensing results of the user's facial parts, associated parts of the facial parts, candidates (presets) of the degree of change of the aspect that is set in advance, etc. In addition, the control unit 190 may display information on a mask worn by the user, information on the voice spectrum acquired from the user's speech, etc. on the screen.
For example, when the user is wearing a mask or the like over the mouth and the control unit 190 is unable to sense the movement of the mouth, the control unit 190 may change the state of the avatar's mouth based on the voice spectrum of the user's speech rather than the results of the user's sensing, as described above.
This allows a user to change the state of the avatar's mouth to match the user's speech, for example, even when the user has to broadcast while wearing a mask.

ユーザ映像1502は、図14におけるユーザ映像1402と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 User video 1502, like user video 1402 in FIG. 14, is a screen that displays an image of the user himself/herself captured via camera 160 provided on terminal device 10.

設定画面1503は、図14における設定画面1403と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。 The setting screen 1503, like the setting screen 1403 in FIG. 14, is a screen for the user to set the degree of change in the avatar's appearance.

アバター1504は、図14におけるアバター1404と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。 Avatar 1504, like avatar 1404 in FIG. 14, is an avatar that changes appearance based on settings received from the user.

図16は、アバターの1または複数の顔の部位のうち、予め関連付けられている部位同士で、度合いの設定の差異が所定の閾値を超過した場合に、所定の通知をユーザに提示する際の画面例を示す。 Figure 16 shows an example screen that displays a specified notification to the user when the difference in degree settings between one or more facial parts of an avatar that are previously associated exceeds a specified threshold.

図16において、端末装置10の制御部190は、ディスプレイ1302に、情報表示画面1601、ユーザ映像1602、設定画面1603、アバター1604等を表示する。 In FIG. 16, the control unit 190 of the terminal device 10 displays an information display screen 1601, a user image 1602, a setting screen 1603, an avatar 1604, etc. on the display 1302.

情報表示画面1601は、図15における情報表示画面1501と同様に、ユーザの顔の部位のセンシング結果、顔の部位のうち、関連付けられている部位、予め設定されている態様の変化の程度の度合いの候補(プリセット)等を表示する画面である。 The information display screen 1601, like the information display screen 1501 in FIG. 15, is a screen that displays the results of sensing the user's facial parts, associated facial parts, and presets for the degree of change in appearance.

ユーザ映像1602は、図15におけるユーザ映像1502と同様に、端末装置10に備えられているカメラ160を介して撮影されたユーザ自身の映像を表示する画面である。 User video 1602, like user video 1502 in FIG. 15, is a screen that displays an image of the user himself/herself captured via camera 160 provided on terminal device 10.

設定画面1603は、図15における設定画面1503と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。制御部190は、このとき、当該画面において、例えば、ユーザから顔の部位の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位(両目等)の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、当該箇所が異常な設定値であることと、推奨される設定について表示してもよい。 Similar to setting screen 1503 in FIG. 15, setting screen 1603 is a screen for the user to set the degree of change in the appearance of the avatar. At this time, when control unit 190 receives an input from the user on the screen regarding the degree of change in the appearance of a facial part, if the degree of change in a paired or related part (both eyes, etc.) is too large (for example, the amount of change in one eye is too large), control unit 190 may display that the setting value for that part is abnormal and display recommended settings.

アバター1604は、図15におけるアバター1504と同様に、ユーザから受け付けた設定に基づいて態様を変化させるアバターである。制御部190は、上述の設定画面1503において、ユーザから顔の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位の変化の程度の度合いが大きすぎる場合に、当該部位を異なる態様(例えば、異なる色の態様)でユーザに通知と共に提示してもよい。このとき、制御部190が提示する異なる態様は、色、ポップアップ通知、該当する部位の形状を変化させるなど、限定されない。 Avatar 1604 is an avatar that changes appearance based on settings received from the user, similar to avatar 1504 in FIG. 15. When control unit 190 receives an input of the degree of change in facial appearance from the user on setting screen 1503 described above, if the degree of change in a paired or related part is too large, control unit 190 may present the part in a different appearance (e.g., in a different color) together with a notification to the user. In this case, the different appearance presented by control unit 190 may be, but is not limited to, a color, a pop-up notification, or a change in the shape of the relevant part.

これにより、ユーザは、アバターの顔の部位の態様を変化させるための設定を行う際、異常値を入力した場合でも視覚的に判断することができ、視聴者に違和感を与えることを防ぐことができる。 This allows the user to visually determine if they have entered an abnormal value when configuring settings to change the appearance of parts of the avatar's face, preventing viewers from feeling uncomfortable.

図17は、所定の通知をユーザに提示する際、度合いの差を、所定の範囲内に設定した場合の少なくとも1または複数の顔の部位が変化する様子をユーザに提示する際の画面例を示す。 Figure 17 shows an example of a screen that is displayed when a specific notification is presented to a user, showing how at least one or more facial parts change when the degree difference is set within a specific range.

図17において、端末装置10の制御部190は、ディスプレイ1302に、設定画面1701、アバター1702、設定プレビュー画面1703、アバタープレビュー画面1704等を表示する。 In FIG. 17, the control unit 190 of the terminal device 10 displays a setting screen 1701, an avatar 1702, a setting preview screen 1703, an avatar preview screen 1704, etc. on the display 1302.

設定画面1603は、図15における設定画面1503と同様に、ユーザがアバターの態様の変化の程度を設定するための画面である。制御部190は、このとき、当該画面において、例えば、ユーザから顔の部位の態様の変化の程度の度合いの入力を受け付けた際、対になる、または関連する部位(両目等)の変化の程度の度合いが大きすぎる(例えば、片目の変化量が大きすぎる等)場合に、当該箇所が異常な設定値であることと、推奨される設定について表示してもよい。 Similar to setting screen 1503 in FIG. 15, setting screen 1603 is a screen for the user to set the degree of change in the appearance of the avatar. At this time, when control unit 190 receives an input from the user on the screen regarding the degree of change in the appearance of a facial part, if the degree of change in a paired or related part (both eyes, etc.) is too large (for example, the amount of change in one eye is too large), control unit 190 may display that the setting value for that part is abnormal and display recommended settings.

設定プレビュー画面1703は、設定画面1701において、アバターの顔の部位等において、対になる、関連する部位同士で変化の程度の度合いに異常値があった場合に、推奨される設定を表示する画面である。端末装置10の制御部190は、設定プレビュー画面1703に、設定画面1701に入力された設定とは異なる設定の態様の変化の程度の度合いを表示する。このとき、制御部190は、数値、またはオブジェクトなどを、設定画面1701において表示されている態様とは異なる態様で表示してもよい。(例えば、異なる色、大きさ、図形等) The setting preview screen 1703 is a screen that displays recommended settings when there is an abnormal value in the degree of change between paired, related parts of the avatar's face, etc., on the setting screen 1701. The control unit 190 of the terminal device 10 displays, on the setting preview screen 1703, the degree of change of a setting mode different from the setting entered on the setting screen 1701. At this time, the control unit 190 may display numerical values, objects, etc., in a mode different from the mode displayed on the setting screen 1701. (For example, a different color, size, shape, etc.)

アバタープレビュー画面1704は、設定プレビュー画面1703において推奨される設定を反映させたアバターを表示する画面である。例えば、端末装置10の制御部190は、上述した通知を表示する画面とは異なる画面上に、度合いの差が適正範囲(視聴者に違和感を与えない範囲)である場合のアバターの態様の変化の様子を表示してもよい。
これにより、ユーザは、自身が設定した態様の変化の程度の度合いが所定の閾値を超過した場合に、適切な数値に設定した場合の態様の変化の様子とともに確認することができる。
The avatar preview screen 1704 is a screen that displays an avatar that reflects the settings recommended on the setting preview screen 1703. For example, the control unit 190 of the terminal device 10 may display, on a screen different from the screen that displays the above-mentioned notification, how the state of the avatar's appearance changes when the difference in degree is within an appropriate range (a range that does not cause discomfort to the viewer).
This allows the user to check, when the degree of change in behavior that he or she has set exceeds a specified threshold, how the behavior would change if the user set it to an appropriate value.

<第3の実施の形態>
<概要>
これまでは、ユーザの発話の音声スペクトル以外にも、ユーザのセンシング結果に基づいて、アバターの態様、例えば、1または複数の顔の部位の態様を変化させる一連の処理について説明した。
第3の実施形態に係る発明では、取得したユーザの顔のセンシング結果に基づいて、アバターの表示態様を変化させることができる。以下、当該一連の処理について説明する。なお、第1の実施形態、第2の実施形態と共通の構成を持つ部分(例えば、端末装置10、サーバ20等)についての説明は省略し、第3の実施形態に特有の構成、処理についてのみ説明する。
Third Embodiment
<Overview>
So far, a series of processes has been described in which the appearance of an avatar, for example, the appearance of one or more facial parts, is changed based on the results of sensing of the user in addition to the voice spectrum of the user's speech.
In the invention according to the third embodiment, the display mode of the avatar can be changed based on the obtained sensing result of the user's face. The series of processes will be described below. Note that the description of the parts having the same configuration as the first and second embodiments (e.g., the terminal device 10, the server 20, etc.) will be omitted, and only the configuration and process unique to the third embodiment will be described.

<7 第3の実施形態におけるデータ構造>
第3の実施形態において、サーバ20は、新たに図18~図21に示すデータベースを備える。以下、それぞれのデータ構造について例示する。
図18は、サーバ20が記憶する変化条件データベース2024のデータ構造を示す図である。
<7. Data Structure in the Third Embodiment>
In the third embodiment, the server 20 newly includes databases shown in Figures 18 to 21. The data structures of each will be exemplified below.
FIG. 18 is a diagram showing the data structure of the change condition database 2024 stored in the server 20. As shown in FIG.

図18に示すように、変化条件データベース2024は、項目「条件ID」と、項目「変化条件」と、項目「評価項目」と、項目「出力値」と、を含む。
このとき、項目「変化条件」は、サブレコードとして、項目「表情種別」と、項目「楽曲種別」と、を含む。
項目「評価項目」は、サブレコードとして、項目「目の閾値」と、項目「眉の閾値」と、項目「口の閾値」と、項目「頬の閾値」と、を含む。
項目「出力値」は、サブレコードとして、項目「目の出力値」と、項目「眉の出力値」と、項目「口の出力値」と、項目「頬の出力値」と、を含む。
As shown in FIG. 18, the change condition database 2024 includes an item "condition ID", an item "change condition", an item "evaluation item", and an item "output value".
In this case, the item "change condition" includes, as sub-records, an item "facial expression type" and an item "music type".
The item "evaluation item" includes, as sub-records, an item "eye threshold", an item "eyebrow threshold", an item "mouth threshold", and an item "cheek threshold".
The item "output value" includes, as sub-records, an item "eye output value", an item "eyebrow output value", an item "mouth output value", and an item "cheek output value".

項目「条件ID」は、センシング結果に対する閾値の条件を識別する情報を示す。 The "Condition ID" item indicates information that identifies the threshold condition for the sensing result.

項目「変化条件」は、取得したセンシング結果に対し参照する閾値の条件設定を示す。
具体的には、項目「変化条件」は、端末装置10Aが取得したユーザの顔の各部位のセンシング結果各々について、予め設定された1または複数の閾値の条件に所定の定義づけを行い設定された条件である。
例えば、項目「変化条件」は、取得したセンシング結果が、所定の閾値の条件を満たし、アバターの表示態様を変化させる際に、その特性により定義付けられた条件であり、例えば、ユーザの感情の種別を示す条件、ユーザが動画配信において使用する楽曲の種別を示す条件を示す。例えば、変化条件は、ユーザの感情の種別を示す定義が、サブレコードの項目「表情種別」として定義され、ユーザが動画配信において用いる楽曲の種別を示す定義が、サブレコードの項目「楽曲種別」として定義される。
ここで、感情の種別を示す定義は、下記を含む。
・喜び
・怒り
・哀しみ
・楽しみ
・驚き
・アンニュイ
・興奮している
・落ち込んでいる
ここで、楽曲の種別を示す定義は、例えば、下記を含む。
・ポップス
・バラード
・悲し目な曲
・激しい曲
The item "change condition" indicates a condition setting of a threshold value to be referred to for the acquired sensing result.
Specifically, the item “change condition” is a condition set by assigning a predetermined definition to one or more preset threshold conditions for each of the sensing results of each part of the user's face acquired by the terminal device 10A.
For example, the item "change condition" is a condition defined by the characteristics when the acquired sensing result satisfies a predetermined threshold condition and changes the display mode of the avatar, and indicates, for example, a condition indicating the type of the user's emotion and a condition indicating the type of music the user uses in video streaming. For example, the change condition is defined such that a definition indicating the type of the user's emotion is defined as the item "facial expression type" of the sub-record, and a definition indicating the type of music the user uses in video streaming is defined as the item "music type" of the sub-record.
Here, the definitions indicating the types of emotions include the following.
Joy, anger, sadness, enjoyment, surprise, ennui, excitement, depression. Here, the definition indicating the type of music includes, for example, the following.
・Pops ・Ballads ・Sad songs ・Intense songs

項目「評価項目」は、取得したセンシング結果のうち、閾値の条件が設定されている項目を示す。
項目「評価項目」は、サブレコードとして、項目「目の閾値」と、項目「眉の閾値」と、項目「口の閾値」と、項目「頬の閾値」と、を含む。それぞれの詳細については、後述する。
ここで、顔の各部位の「閾値」が定義されているパラメータについて例示する。顔の各部位において、「閾値」が定義されているパラメータは、各部位の開閉度合い、及び移動度合い(すなわち、各部位において、基準となる状態からの変化度合い)であり、例えば、下記を含む。
・目のパラメータ:目の開閉度合い
・口のパラメータ:口の開閉度合い
ここで、開閉度合いは、縦方向の開閉度合いと横方向の開閉度合いを含んでいてもよい。
・頬のパラメータ:口角の上下への移動度合い
・眉のパラメータ:眉の上下への移動度合い
The item "evaluation item" indicates an item of the acquired sensing result for which a threshold condition is set.
The item "Evaluation item" includes, as sub-records, an item "eye threshold," an item "eyebrow threshold," an item "mouth threshold," and an item "cheek threshold." Details of each will be described later.
Here, we will give examples of parameters for which "thresholds" are defined for each part of the face. The parameters for which "thresholds" are defined for each part of the face are the degree of opening and closing and the degree of movement of each part (i.e., the degree of change from a reference state for each part), and include, for example, the following:
Eye parameters: degree of eye opening/closing; Mouth parameters: degree of mouth opening/closing. Here, the degree of mouth opening/closing may include the degree of vertical opening/closing and the degree of horizontal opening/closing.
・Cheek parameters: degree to which the corners of the mouth move up and down ・Eyebrow parameters: degree to which the eyebrows move up and down

項目「目の閾値」は、ユーザの目のセンシング結果に対する閾値の条件を示す。
具体的には、項目「目の閾値」は、ユーザの顔のセンシング結果のうち、目のセンシング結果を取得したときに、値を所定の出力値に補正させる条件を示す。
例えば、目のセンシング結果が所定の閾値を下回る場合には、予め設定されている目の開閉度に変更し、当該変更した値をアバターに反映させ、表情を変化させる。
ここで、目の開閉度について例示する。ユーザは、顔の部位のうち、センシング対象となる部位について、予め基準となる状態における開閉度(開閉しない部位の場合には、変化量等と表現してもよい。呼称については任意でよく、限定されない。)を設定しておく。例えば、目の基準となる開閉度の設定方法について例示すると、ユーザは、目に力を入れない(開こうとも閉じようともしない)状態におけるセンシング結果を、基準値として例えば「1.00」等と設定する。その後、ユーザの目の開閉をセンシングした際に、当該基準値との差分から、目の開閉度を算出する。
端末装置10Aは、上記基準となる目の開閉度等から、センシング結果に基づいた目の開閉度等を算出する。その後、算出された開閉度が閾値として設定された条件を満たす(閾値を超過する、閾値の範囲内に入る、等)と、顔の各部位ごとに設定された出力値をアバターに反映させ、アバターの表示態様を変化させる。
これにより、ユーザは、アバターが自身のセンシング結果を正確に反映しすぎてしまい、アバターを見るユーザに対し違和感を与えることを防ぐことができる。
The item "eye threshold" indicates the threshold condition for the sensing result of the user's eyes.
Specifically, the item "eye threshold" indicates a condition for correcting the value to a predetermined output value when the eye sensing result is acquired from among the sensing results of the user's face.
For example, if the eye sensing result falls below a predetermined threshold, the eye opening degree is changed to a preset value, and the changed value is reflected in the avatar, thereby changing the facial expression.
Here, the degree of opening and closing of the eyes will be exemplified. The user sets in advance the degree of opening and closing in a reference state for the parts of the face to be sensed (in the case of parts that are not open or closed, this may be expressed as the amount of change, etc. The name may be arbitrary and is not limited). For example, in the case of setting the reference degree of opening and closing of the eyes, the user sets the sensing result in a state where the user is not exerting force on the eyes (not trying to open or close them) as a reference value, for example, "1.00". After that, when the opening and closing of the user's eyes is sensed, the degree of opening and closing of the eyes is calculated from the difference from the reference value.
The terminal device 10A calculates the eye opening/closing degree, etc. based on the sensing result from the above-mentioned reference eye opening/closing degree, etc. Thereafter, when the calculated opening/closing degree satisfies a condition set as a threshold (exceeding the threshold, falling within the threshold range, etc.), the output value set for each part of the face is reflected in the avatar, and the display mode of the avatar is changed.
This allows the user to prevent the avatar from overly accurately reflecting the user's own sensing results, which can cause users looking at the avatar to feel uncomfortable.

項目「眉の閾値」は、ユーザの眉のセンシング結果に対する閾値の条件を示す。
具体的には、項目「眉の閾値」は、項目「目の閾値」と同様に、ユーザの顔のセンシング結果のうち、眉のセンシング結果を取得したときに、値を所定の出力値に補正させる条件を示す。
The item "eyebrow threshold" indicates the threshold condition for the sensing result of the user's eyebrows.
Specifically, the item "Eyebrow threshold", like the item "Eye threshold", indicates the conditions for correcting the value to a specified output value when the eyebrow sensing results are obtained from the sensing results of the user's face.

項目「口の閾値」は、ユーザの口のセンシング結果に対する閾値の条件を示す。
具体的には、項目「口の閾値」は、項目「目の閾値」等と同様に、ユーザの顔のセンシング結果のうち、口のセンシング結果を取得したときに、値を所定の出力値に補正させる条件を示す。
The item "mouth threshold" indicates the threshold condition for the sensing result of the user's mouth.
Specifically, the item "Mouth Threshold", like the item "Eye Threshold", etc., indicates the conditions for correcting the value to a specified output value when the mouth sensing results are obtained from the sensing results of a user's face.

項目「頬の閾値」は、ユーザの頬のセンシング結果に対する閾値の条件を示す。
具体的には、項目「頬の閾値」は、項目「目の閾値」等と同様に、ユーザの顔のセンシング結果のうち、頬のセンシング結果を取得したときに、値を所定の出力値に補正させる条件を示す。
The item "cheek threshold" indicates the threshold condition for the sensing result of the user's cheek.
Specifically, the item "cheek threshold", like the item "eye threshold", indicates the conditions for correcting the value to a specified output value when the cheek sensing results are obtained from the sensing results of the user's face.

項目「出力値」は、センシング結果が変化条件を満たす場合に、アバターの動きに反映させる顔の各部位の動作値を示す。
項目「出力値」は、サブレコードとして、項目「目の出力値」と、項目「眉の出力値」と、項目「口の出力値」と、項目「頬の出力値」と、を含み、それぞれの詳細については、後述する。
The item "output value" indicates the movement value of each part of the face to be reflected in the movement of the avatar when the sensing result satisfies the change condition.
The item "output value" includes, as sub-records, the item "eye output value," the item "eyebrow output value," the item "mouth output value," and the item "cheek output value," and details of each will be described later.

項目「目の出力値」は、ユーザの目のセンシング結果をアバターに反映させる出力値に変更した値を示す。
具体的には、項目「目の出力値」は、ユーザの顔の部位のうち、目のセンシング結果が、各種変化条件において設定された閾値の条件を満たした場合に、アバターの動作に反映させる出力値として出力する値を示す。
例えば、閾値ID「S001」が識別する、表現「半目」の場合を例示する。
端末装置10Aは、ユーザからセンシングした顔の部位のうち、目のセンシング結果に基づく目の開閉度を算出する。その後、端末装置10Aは、当該開閉度が「<0.50」の条件を満たす場合(例えば、0.45等)には、開閉度を「0」と出力してアバターに反映させ、表示態様を変化させる。すなわち、表現「半目」の場合には、閾値の条件をセンシング結果が満たす場合には、ユーザが実際には目を閉じておらずとも、アバターの表情を、目を閉じた表情として視聴者に表示する。
これにより、視聴者は、アバターが半分目を開けた状態になっている(つまり半目)等の状態を見ることを防ぐことができる。そのため、視聴者は、アバターの表情に違和感を覚えることなく、動画配信への没入感を高めることができる。
なお、上記「半目」に限らず、本開示において例示される閾値の条件は限定されない。例えば、表現「半目」における閾値の条件は、上記の値(<0.50)に限らず、ユーザの任意に設定されてよい。これにより、ユーザは、一般的な閾値の条件だと、不自然なアバターの顔の表示態様になる亞場合に、条件を変更し、視聴者に違和感を与えることを防ぐことができる。
The item "eye output value" indicates the changed output value that reflects the user's eye sensing results in the avatar.
Specifically, the item "eye output value" indicates the value to be output as an output value to be reflected in the avatar's movement when the sensing results of the eyes, among the parts of the user's face, satisfy the threshold conditions set in the various change conditions.
For example, the expression "half-eyes" identified by the threshold ID "S001" will be illustrated.
The terminal device 10A calculates the degree of eye opening and closing based on the result of sensing the eyes from among the facial parts sensed from the user. Thereafter, when the degree of opening and closing satisfies the condition of "<0.50" (for example, 0.45), the terminal device 10A outputs the degree of opening and closing as "0" to reflect it in the avatar and change the display mode. That is, in the case of the expression "half-open eyes," when the sensing result satisfies the threshold condition, even if the user does not actually have their eyes closed, the facial expression of the avatar is displayed to the viewer as an expression with eyes closed.
This prevents the viewer from seeing the avatar with its eyes half open (i.e., half-closed), etc. Therefore, the viewer does not feel uncomfortable with the avatar's facial expression, and can become more immersed in the video distribution.
Note that the threshold conditions exemplified in the present disclosure are not limited to the above-mentioned "half-closed eyes". For example, the threshold condition for the expression "half-closed eyes" is not limited to the above-mentioned value (<0.50) and may be set arbitrarily by the user. In this way, when a general threshold condition results in an unnatural display mode of the avatar's face, the user can change the condition and prevent the viewer from feeling uncomfortable.

項目「眉の出力値」は、ユーザの眉のセンシング結果をアバターに反映させる出力値に変更した値を示す。
具体的には、項目「眉の出力値」は、項目「目の出力値」と同様に、ユーザの顔の部位のうち、眉のセンシング結果が、各種変化条件において設定された閾値の条件を満たした場合に、アバターの動作に反映させる出力値として出力する値を示す。
The item "eyebrow output value" indicates the output value that is changed to reflect the results of sensing the user's eyebrows in the avatar.
Specifically, the item "Eye output value", like the item "Eye output value", indicates the value to be output as an output value to be reflected in the avatar's movement when the sensing results of the eyebrows, one of the parts of the user's face, satisfy the threshold conditions set in the various change conditions.

項目「口の出力値」は、ユーザの口のセンシング結果をアバターに反映させる出力値に変更した値を示す。
具体的には、項目「口の出力値」は、項目「目の出力値」等と同様に、ユーザの顔の部位のうち、口のセンシング結果が、各種変化条件において設定された閾値の条件を満たした場合に、アバターの動作に反映させる出力値として出力する値を示す。
The item "mouth output value" indicates a changed output value that reflects the sensing result of the user's mouth in the avatar.
Specifically, the item "mouth output value", like the item "eye output value", indicates the value to be output as an output value to be reflected in the avatar's movement when the sensing results of the mouth, one of the parts of the user's face, satisfy the threshold conditions set in the various change conditions.

項目「頬の出力値」は、ユーザの頬のセンシング結果をアバターに反映させる出力値に変更した値を示す。
具体的には、項目「頬の出力値」は、項目「目の出力値」等と同様に、ユーザの顔の部位のうち、頬のセンシング結果が、各種変化条件において設定された閾値の条件を満たした場合に、アバターの動作に反映させる出力値として出力する値を示す。
The item "cheek output value" indicates the output value that is changed to reflect the sensing result of the user's cheek in the avatar.
Specifically, the item "cheek output value", like the item "eye output value", indicates the value to be output as an output value to be reflected in the avatar's movement when the sensing results of the cheek, among the parts of the user's face, satisfy the threshold conditions set in the various change conditions.

図19は、サーバ20が記憶する属性データベース2025のデータ構造を示す図である。 Figure 19 shows the data structure of the attribute database 2025 stored in the server 20.

図19に示すように、属性データベース2025は、項目「属性ID」と、項目「属性」と、項目「目の補正係数」と、項目「眉の補正係数」と、項目「口の補正係数」と、項目「頬の補正係数」と、を含む。 As shown in FIG. 19, the attribute database 2025 includes an item "attribute ID", an item "attribute", an item "eye correction coefficient", an item "eyebrow correction coefficient", an item "mouth correction coefficient", and an item "cheek correction coefficient".

項目「属性ID」は、ユーザが使用するアバターの属性の識別情報を示す。
具体的には、項目「属性ID」は、アバターがキャラクター等である場合に、当該キャラクターの特徴を定義したものである属性をそれぞれ識別したものである。
例えば、属性は、下記の情報を含む。
・人間
・人間であるが、特定の職業(アイドル等)
・人間とは異なる生物(動物、植物等)
・空想上の生物(竜、天使、悪魔等)
・機械
・不定形の存在(ファンタジーにおけるスライム、ゴースト等)
The item "attribute ID" indicates identification information of the attribute of the avatar used by the user.
Specifically, when the avatar is a character, the item "attribute ID" identifies an attribute that defines the characteristics of the character.
For example, the attributes include the following information:
・Human ・Human with a specific occupation (idol, etc.)
・Organisms other than humans (animals, plants, etc.)
・Imaginary creatures (dragons, angels, devils, etc.)
・Machines ・Amorphous entities (slime, ghosts, etc. in fantasy)

項目「属性」は、各種属性を定義するための情報を示す。
具体的には、項目「属性」は、アバターに予め紐づけられた、アバターそれぞれの種族、種別、性質等を表現する情報である。
例えば、属性は、下記を含む。
・人間(種族)
・アイドル(性質)
・ドラゴン(種族、種別)
・ロボット(種別)
・無機物(種別)
The item "attribute" indicates information for defining various attributes.
Specifically, the item "attributes" is information that is pre-associated with an avatar and expresses the race, type, characteristics, etc. of each avatar.
For example, the attributes include:
・Human (race)
・Idol (Quality)
・Dragon (race, type)
・Robot (type)
・Inorganic matter (type)

項目「目の補正係数」は、属性に応じてアバターの目の出力値を補正する際の係数を示す。
具体的には、項目「目の補正係数」は、取得したユーザの目のセンシング結果を、変化条件の各々を参照して出力される出力値として出力する際に、アバターの属性に応じて補正した値を示す。
例えば、アバターの属性が「人」である場合には、目の補正係数は「1.00」である。すなわち、ユーザのセンシング結果に対し、「1.00」の値を乗算した結果を、アバターに反映させる出力値として出力し、アバターの表情を変化させる。
これにより、ユーザは、自身に対応するアバターの属性に応じて、より表示態様を強調等した態様で表示できるため、視聴者に与える没入感をいっそう高めることができる。
The item "eye correction coefficient" indicates a coefficient used when correcting the output value of the avatar's eyes according to the attributes.
Specifically, the item "eye correction coefficient" indicates a value corrected according to the attributes of the avatar when the acquired sensing results of the user's eyes are output as output values by referring to each of the change conditions.
For example, if the attribute of the avatar is "person," the eye correction coefficient is "1.00." That is, the result of multiplying the user's sensing result by the value of "1.00" is output as an output value to be reflected in the avatar, thereby changing the facial expression of the avatar.
This allows the user to display the avatar corresponding to the user in a more emphasized manner or other manner in accordance with the attributes of the avatar, thereby further enhancing the sense of immersion given to the viewer.

項目「眉の補正係数」は、属性に応じてアバターの眉の出力値を補正する際の係数を示す。
具体的には、項目「眉の補正係数」は、項目「目の補正値」と同様に、取得したユーザの眉のセンシング結果を、変化条件の各々を参照して出力される出力値として出力する際に、アバターの属性に応じて補正した値を示す。
The item "eyebrow correction coefficient" indicates a coefficient used when correcting the output value of the eyebrows of the avatar according to the attributes.
Specifically, the item "Eyebrow correction coefficient", like the item "Eye correction value", indicates a value corrected according to the attributes of the avatar when the acquired sensing results of the user's eyebrows are output as output values that are output by referring to each of the change conditions.

項目「口の補正係数」は、属性に応じてアバターの口の出力値を補正する際の係数を示す。
具体的には、項目「口の補正係数」は、項目「目の補正値」等と同様に、取得したユーザの口のセンシング結果を、変化条件の各々を参照して出力される出力値として出力する際に、アバターの属性に応じて補正した値を示す。
The item "Mouth correction coefficient" indicates a coefficient used when correcting the output value of the avatar's mouth according to the attributes.
Specifically, the item "Mouth correction coefficient", like the item "Eye correction value", indicates a value corrected according to the attributes of the avatar when the acquired sensing results of the user's mouth are output as an output value that is output by referring to each of the change conditions.

項目「頬の補正係数」は、属性に応じてアバターの頬の出力値を補正する際の係数を示す。
具体的には、項目「頬の補正係数」は、項目「目の補正値」等と同様に、取得したユーザの頬のセンシング結果を、変化条件の各々を参照して出力される出力値として出力する際に、アバターの属性に応じて補正した値を示す。
The item "cheek correction coefficient" indicates a coefficient used when correcting the output value of the avatar's cheeks according to the attributes.
Specifically, the item "cheek correction coefficient", like the item "eye correction value", indicates a value corrected according to the attributes of the avatar when the acquired sensing results of the user's cheek are output as an output value that is output by referring to each of the change conditions.

図20は、サーバ20が記憶する画面補正データベース2026のデータ構造を示す図である。 Figure 20 shows the data structure of the screen correction database 2026 stored in the server 20.

図20に示すように、画面補正データベース2026は、項目「補正ID」と、項目「専有割合」と、項目「目の補正係数」と、項目「眉の補正係数」と、項目「口の補正係数」と、項目「頬の補正係数」と、を含む。 As shown in FIG. 20, the screen correction database 2026 includes the items "Correction ID", "Exclusive Ratio", "Eye Correction Coefficient", "Eyebrow Correction Coefficient", "Mouth Correction Coefficient", and "Cheek Correction Coefficient".

項目「補正ID」は、出力値を補正する条件を識別する情報を示す。 The "Correction ID" item indicates information that identifies the conditions for correcting the output value.

項目「専有割合」は、出力値を補正する条件となる、撮影されたユーザの顔のサイズの画面サイズに占める割合の情報を示す。
具体的には、項目「専有割合」は、端末装置10Aが、カメラ160等を介して取得したユーザのセンシング結果に含まれるユーザの顔のサイズが、撮影された動画の画面サイズに占める割合を算出した結果である。
例えば、端末装置10Aは、カメラ160等を介して撮影されたユーザの顔のサイズ(画面に表示される際のサイズ、ピクセル数)が、画面全体のサイズ、ピクセル数に占める割合を算出する。
The item "exclusive ratio" indicates information on the ratio of the size of the photographed user's face to the screen size, which is a condition for correcting the output value.
Specifically, the item “Exclusive Use Proportion” is the result of calculation by terminal device 10A of the proportion of the size of the user's face contained in the sensing results of the user acquired via camera 160 or the like to the screen size of the captured video.
For example, terminal device 10A calculates the ratio of the size of the user's face captured via camera 160 or the like (the size and number of pixels when displayed on the screen) to the overall size and number of pixels of the screen.

項目「目の補正係数」は、センシング結果に含まれるユーザの顔のサイズが補正条件を満たした場合に、目の出力値に用いられる補正係数の値を示す。
例えば、補正ID「C002」の場合を例示する。取得したユーザのセンシング結果のうち、顔のサイズが、画面全体のサイズに占める割合が「0.6」である場合に、目の補正係数として「1.20」を用い出力値を補正する。すなわち、端末装置10Aは、カメラ160等により撮影されたユーザの顔のサイズが画面サイズの所定の割合を占める場合には、通常よりも出力値を強調してアバターの表示態様を変化させる。
これにより、ユーザは、自身に対応するアバターが画面に大きく表示される場合に、より強調した表現で視聴者に配信動画を視聴させることができる。
The item "eye correction coefficient" indicates the value of the correction coefficient used for the eye output value when the size of the user's face included in the sensing result satisfies the correction condition.
For example, the case of correction ID "C002" will be illustrated. When the ratio of the face size to the entire screen size is "0.6" among the acquired sensing results of the user, the output value is corrected using "1.20" as the eye correction coefficient. In other words, when the size of the user's face photographed by the camera 160 or the like occupies a predetermined ratio of the screen size, the terminal device 10A changes the display mode of the avatar by emphasizing the output value more than usual.
This allows the user to make the viewer watch the distributed video in a more emphasized manner when the avatar corresponding to the user is displayed large on the screen.

項目「眉の補正係数」は、センシング結果に含まれるユーザの顔のサイズが補正条件を満たした場合に、眉の出力値に用いられる補正係数の値を示す。 The "Eyebrow correction coefficient" item indicates the value of the correction coefficient used for the eyebrow output value when the size of the user's face included in the sensing results satisfies the correction conditions.

項目「口の補正係数」は、センシング結果に含まれるユーザの顔のサイズが補正条件を満たした場合に、口の出力値に用いられる補正係数の値を示す。 The "Mouth correction coefficient" item indicates the value of the correction coefficient used for the mouth output value when the size of the user's face included in the sensing results meets the correction conditions.

項目「頬の補正係数」は、センシング結果に含まれるユーザの顔のサイズが補正条件を満たした場合に、頬の出力値に用いられる補正係数の値を示す。 The "cheek correction coefficient" item indicates the value of the correction coefficient used for the cheek output value when the size of the user's face included in the sensing results satisfies the correction conditions.

図21は、サーバ20が記憶する楽曲データベース2027のデータ構造を示す図である。 Figure 21 shows the data structure of the music database 2027 stored in the server 20.

図21において、楽曲データベース2027は、項目「楽曲ID」と、項目「楽曲メタデータ」と、項目「対応する変化条件」と、を含む。
項目「楽曲メタデータ」は、サブレコードとして、項目「アルバム名」と、項目「楽曲の名称」と、項目「トラック番号」と、項目「歌手名」と、項目「作詞者名」と、項目「作曲者名」と、項目「編曲者名」と、項目「演奏時間」と、項目「歌詞」と、項目「作品コード」と、項目「商品番号」と、項目「権利者名」と、項目「楽曲のジャンル」等を含む。
In FIG. 21, the music database 2027 includes an item "music ID", an item "music metadata", and an item "corresponding change condition".
The item "Music metadata" includes, as sub-records, the item "Album name", the item "Song name", the item "Track number", the item "Singer name", the item "Lyricist name", the item "Composer name", the item "Arranger name", the item "Performance time", the item "Lyrics", the item "Product code", the item "Product number", the item "Rights holder name", the item "Music genre", etc.

項目「楽曲ID」は、動画配信において用いられる楽曲を識別する情報を示す。 The "Music ID" item indicates information that identifies the music used in video distribution.

項目「楽曲メタデータ」は、楽曲それぞれの付帯情報を示す。
具体的には、項目「楽曲メタデータ」は、楽曲がリリースされる際に、当該楽曲のリリース元等から楽曲データに付与される付帯情報であり、楽曲の性質等を識別するために付与される情報である。楽曲メタデータは楽曲データの一部に格納されている場合と、楽曲データのIDをキーとして外部データベースを検索することにより取得される場合とがある。ここでは、楽曲メタデータの取得方法に特段の制限は設けない。
例えば、サーバ20は、楽曲のメタデータとして、下記の情報等を含む。
・アルバム名
・楽曲の名称
・トラック番号
・歌手名
・作詞者名
・作曲者名
・編曲者名
・演奏時間
・歌詞
・作品コード
・商品番号
・権利者名
・楽曲のジャンル
なお、当該メタデータに含まれる情報は限定されない。
The item "music metadata" indicates supplementary information for each piece of music.
Specifically, the item "song metadata" is additional information that is added to song data by the song releaser when the song is released, and is information added to identify the nature of the song. Song metadata may be stored as part of the song data, or may be obtained by searching an external database using the song data ID as a key. Here, no particular restrictions are placed on the method of obtaining song metadata.
For example, the server 20 includes the following information as metadata of the song:
· Album name · Song name · Track number · Singer name · Lyricist name · Composer name · Arranger name · Performance time · Lyrics · Product code · Product number · Rights holder name · Song genre Note that the information included in the metadata is not limited.

項目「対応する変化条件」は、楽曲ごとに対応する変化条件の情報を示す。
具体的には、項目「対応する変化条件」は、楽曲それぞれに対し紐づけられた、変化条件データベース2024における項目「変化条件」のレコードを示す。
例えば、楽曲ID「M001」の場合を例示する。端末装置10Aの制御部190は、配信に用いられる楽曲の情報を取得し、当該楽曲に含まれるメタデータと、楽曲データベース2027に含まれる情報とを照会し、取得した楽曲に関する情報を特定する。その後、制御部190は、当該楽曲に対応する変化条件が「ポップス」であることを特定する。その後、制御部190は、変化条件データベース2024を参照し、変化条件「ポップス」に対応する変化条件に含まれる閾値の条件を参照する。
これにより、ユーザは、自身が配信において使用する楽曲に応じて、適切にアバターの表示態様を変化させることができる。
The item "Corresponding change condition" indicates information on the change condition corresponding to each piece of music.
Specifically, the item "corresponding change condition" indicates a record of the item "change condition" in the change condition database 2024 that is linked to each piece of music.
For example, the case of the song ID "M001" will be illustrated. The control unit 190 of the terminal device 10A acquires information about the song to be used for distribution, and refers to the metadata included in the song and the information included in the song database 2027 to identify the acquired information about the song. The control unit 190 then identifies that the change condition corresponding to the song is "pops". The control unit 190 then refers to the change condition database 2024, and refers to the threshold condition included in the change condition corresponding to the change condition "pops".
This allows the user to appropriately change the display mode of the avatar depending on the music that the user uses in the distribution.

<8 第3の実施形態における動作>
以下、システム1が、取得したユーザの顔の部位のセンシング結果に基づいて、アバターの表示態様を変化させる際の一連の処理について説明する。
<8. Operation in Third Embodiment>
A series of processes performed by the system 1 when changing the display mode of the avatar based on the acquired sensing results of the user's facial parts will be described below.

図22は、取得したセンシング結果に基づいて、ユーザに対応するアバターの表示態様を変化させる一連の処理を示すフローチャートである。 Figure 22 is a flowchart showing a series of processes for changing the display mode of the avatar corresponding to the user based on the acquired sensing results.

ステップS2201において、端末装置10Aは、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付ける。
具体的には、例えば、端末装置10Aの制御部190は、端末装置10Aに備えられたカメラ160等を介して、ユーザの顔の部位をセンシングした結果を受け付ける。
このとき、センシングする方法は既存のあらゆる方法であってもよい。例えば、制御部190は、カメラ160にセンシング機能を備えさせてユーザの顔の部位をセンシングしても良いし、モーションセンサ170によりユーザの顔の部位をセンシングしても良い。このとき、端末装置10の制御部190は、ユーザの1または複数の顔の部位として、ユーザの眉、瞼、目頭、目尻、眼球、瞳孔、口からなる群の少なくとも1つをセンシングする。しかし、当該部位は限定されず、他の顔の部位(頬、額等)であってもよい。
In step S2201, the terminal device 10A receives a result of sensing the movement of one or more facial parts of a user who is distributing video.
Specifically, for example, the control unit 190 of the terminal device 10A receives the results of sensing parts of the user's face via the camera 160 or the like provided in the terminal device 10A.
In this case, the sensing method may be any existing method. For example, the control unit 190 may sense the user's facial parts by providing the camera 160 with a sensing function, or may sense the user's facial parts by the motion sensor 170. In this case, the control unit 190 of the terminal device 10 senses at least one of the group consisting of the user's eyebrows, eyelids, inner corners of the eyes, outer corners of the eyes, eyeballs, pupils, and mouth as one or more facial parts of the user. However, the part is not limited to this, and may be another facial part (cheek, forehead, etc.).

ステップS2202において、端末装置10Aは、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させる。
具体的には、例えば、制御部190は。ユーザが所定の動画配信プラットフォーム等において、自身に対応するアバター(2次元の画像でもよいし、3次元モデルでもよい)を動作させ配信する。このとき、制御部190は、ユーザの顔の部位のセンシング結果を、当該アバターの対応する顔の部位(目、頬、眉、口等)に反映させ動作させる。
In step S2202, terminal device 10A delivers video using an avatar corresponding to the user based on the results of sensing the movement of one or more facial parts that it has received, and at this time changes the display mode of one or more facial parts of the avatar.
Specifically, for example, the control unit 190 operates and distributes an avatar (which may be a two-dimensional image or a three-dimensional model) corresponding to the user on a predetermined video distribution platform or the like. At this time, the control unit 190 reflects the sensing results of the user's facial parts in the corresponding facial parts (eyes, cheeks, eyebrows, mouth, etc.) of the avatar and operates it.

このとき、端末装置10Aは、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定し、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させる。 At this time, the terminal device 10A identifies eye movement among the parts of the user's face based on the sensing result, and if the identified eye movement of the user satisfies a first condition, changes the display mode of the avatar corresponding to the user to a first facial expression.

具体的には、第1の条件とは、ユーザが目を所定の閾値以上閉じることであり、第1の表情とは、アバターの目が閉じられた表情であることを示す。
例えば、第1の条件は、ユーザの目の開閉度合いの基準値を設定しておき、当該基準値から所定の値離れた値を閾値とし、ユーザの目が当該閾値を超過して閉じることを示す。目の開閉度合いの基準値は、例えば、ユーザが目に力を入れずに開いている状態(つまり、自然に目を開いている状態)の開閉度合いを基準値(例えば、数値で設定する場合には1.00等)として設定する。
第1の条件は、例えば、当該設定された基準値に対し、所定の数値離れた数値を閾値とし、当該閾値を超過することを条件とする(例えば、目の開閉度合いが0.50よりも小さい、等)。
Specifically, the first condition is that the user closes his or her eyes by a predetermined threshold or more, and the first facial expression is an expression in which the avatar's eyes are closed.
For example, the first condition may be to set a reference value for the degree of opening and closing of the user's eyes, set a value that is a predetermined distance from the reference value as a threshold value, and indicate that the user's eyes exceed the threshold value and are closed. The reference value for the degree of opening and closing of the eyes may be set, for example, to the degree of opening and closing when the user opens the eyes without exerting force (i.e., when the value is set as a numerical value, such as 1.00).
The first condition is, for example, to set a threshold value that is a predetermined value away from the set reference value, and to exceed the threshold value (for example, the degree of eye opening/closing is less than 0.50, etc.).

第1の表情は、例えば、ユーザの目のセンシング結果が当該第1の条件を満たした場合にアバターの表情として動作させる表情を示す。例えば、第1の表情は、ユーザの目のセンシング結果が第1の条件(例えば、目の開閉度合いが0.50未満である)を満たした場合に、アバターの目の開閉度合いを所定の値に設定(例えば、アバターの目の開閉度合いを0にする)し、アバターの表情として動作させる。具体的には、例えば、制御部190は、ユーザの目の開閉度合いが第1の条件(目の開閉度合いが0.50未満)を満たすときに、アバターの目の開閉度合いを所定の値(例えば、アバターの目の開閉度合いを0にする)に設定した表情(第1の表情)、すなわち、アバターの目を閉じさせた態様で動作させる。
より具体的にいえば、第1の条件、および第1の表情は、例えば、変化条件データベース2024における項目「変化条件」が「半目」である場合の閾値の条件、および当該条件に基づいたアバターの表示態様の変化を示す。例えば、制御部190は、ユーザのセンシング結果を取得したのち、参照する変化条件が「半目」である場合、取得したユーザの顔のセンシング結果のうち、目のセンシング結果が、当該「半目」において設定されている閾値の条件を満たすか否かを判定する。その後、制御部190は、目のセンシング結果が、「半目」の閾値の条件を満たしている場合には、アバターの目の動きに反映させる出力値を「0」として反映させる。
The first facial expression indicates, for example, a facial expression to be operated as the facial expression of the avatar when the sensing result of the user's eyes satisfies the first condition (for example, the degree of opening and closing of the eyes is less than 0.50). For example, when the sensing result of the user's eyes satisfies the first condition (for example, the degree of opening and closing of the eyes is less than 0.50), the first facial expression is set to a predetermined value (for example, the degree of opening and closing of the eyes of the avatar is set to 0) and operated as the facial expression of the avatar. Specifically, for example, when the degree of opening and closing of the user's eyes satisfies the first condition (the degree of opening and closing of the eyes is less than 0.50), the control unit 190 operates the avatar with an facial expression (first facial expression) in which the degree of opening and closing of the avatar's eyes is set to a predetermined value (for example, the degree of opening and closing of the avatar's eyes is set to 0), that is, in a state in which the avatar's eyes are closed.
More specifically, the first condition and the first facial expression indicate, for example, the threshold condition when the item "change condition" in the change condition database 2024 is "half-eyes", and the change in the display mode of the avatar based on the threshold condition. For example, after acquiring the user's sensing results, when the change condition to be referred to is "half-eyes", the control unit 190 determines whether or not the eye sensing results from among the acquired sensing results of the user's face satisfy the threshold condition set for the "half-eyes". Thereafter, when the eye sensing results satisfy the threshold condition for "half-eyes", the control unit 190 reflects the output value to be reflected in the eye movement of the avatar as "0".

これにより、ユーザは、自身の目の開閉度合いが所定の条件を満たす場合、すなわち、アバターの表情が、配信されている動画を視聴する視聴者に違和感を与えるような表情になりかねない場合に、視聴者に違和感を与えない表情にアバターの表情を変化さあせることができる。そのため、視聴者の没入感を高めることができる。 As a result, when the degree to which the user's eyes are open or closed meets a predetermined condition, i.e., when the avatar's facial expression may be one that may cause discomfort to the viewer watching the distributed video, the user can change the avatar's facial expression to one that does not cause discomfort to the viewer. This can increase the viewer's sense of immersion.

ある局面において、端末装置10Aの制御部190は、特定されたユーザの目の動き、およびユーザの目以外の顔の各部位の動きが、第1の条件とは異なる第2の条件を満たす場合に、アバターの表示態様を、第1の表情とは異なる第2の表情に変化させてもよい。
具体的には、制御部190は、ユーザの目のセンシング結果、および目以外の顔の部位のセンシング結果が、ユーザの目のセンシング結果の閾値を条件とした第1の条件とは異なり、目および目以外の顔の部位のセンシング結果の閾値を条件とした第2の条件を満たした場合に、アバターの表情を特定の表情に変化させる。
In one aspect, the control unit 190 of the terminal device 10A may change the display mode of the avatar to a second expression different from the first expression when the identified movement of the user's eyes and the movement of each part of the user's face other than the eyes satisfy a second condition different from the first condition.
Specifically, the control unit 190 changes the facial expression of the avatar to a specific facial expression when the sensing results of the user's eyes and the sensing results of the facial parts other than the eyes satisfy a second condition conditioned on a threshold value of the sensing results of the eyes and the facial parts other than the eyes, which is different from a first condition conditioned on a threshold value of the sensing results of the user's eyes.

ここで、制御部190がアバターの表情を第2の表情にする処理を例示する。例えば、サーバ20は、記憶部に、表示態様を変化させる条件である変化条件として、センシングしたユーザの目の動き、およびユーザの目以外の顔の各部位の動きの範囲と、当該範囲を満たす場合にアバターを表示させるべき表示態様として、当該アバターの目および顔の各部位を表示させる出力値と、が予め対応づけられて複数記憶されている。制御部190は、サーバ20にアクセスし、当該変化条件を参照して、センシングしたユーザの目の動き、およびユーザの目以外の顔の各部位の動きそれぞれが、該当する変化条件における各出力値となるように、アバターの表示態様を変化させる。
より具体的には、第2の条件、および第2の表情は、例えば、変化条件データベース2024における項目「変化条件」が「半目」以外の条件である場合の閾値の条件、および当該条件に基づいたアバターの表示態様の変化を示す。
例えば、端末装置10Aの制御部190は、参照する変化条件が、変化条件データベース2024の「驚き」等の「半目」以外の条件である場合、ユーザの顔のセンシング結果を取得すると、目、眉、口、頬等のセンシング結果が、当該参照する変化条件に含まれる閾値の条件を満たすか否かを判定する。センシング結果が条件を満たす場合、制御部190は、アバターの顔の各部位の変化量(動作量)を対応する出力値に設定し、アバターの表示態様を変化させる。
Here, the process in which the control unit 190 changes the facial expression of the avatar to the second facial expression is illustrated. For example, the server 20 stores in the storage unit a plurality of change conditions for changing the display mode, which are the ranges of the sensed movement of the user's eyes and the movement of each part of the face other than the user's eyes, and output values for displaying the eyes and each part of the face of the avatar as the display mode in which the avatar should be displayed when the ranges are satisfied, in association with each other in advance. The control unit 190 accesses the server 20 and refers to the change conditions, and changes the display mode of the avatar so that the sensed movement of the user's eyes and the movement of each part of the face other than the user's eyes become the output values in the corresponding change conditions.
More specifically, the second condition and the second facial expression indicate, for example, a threshold condition when the item "change condition" in the change condition database 2024 is a condition other than "half-closed eyes", and a change in the display mode of the avatar based on that condition.
For example, when the control unit 190 of the terminal device 10A acquires the sensing results of the user's face, if the referenced change condition is a condition other than "half-closed eyes", such as "surprise" in the change condition database 2024, the control unit 190 determines whether or not the sensing results of the eyes, eyebrows, mouth, cheeks, etc. satisfy the threshold conditions included in the referenced change condition. If the sensing results satisfy the conditions, the control unit 190 sets the amount of change (amount of movement) of each part of the avatar's face to the corresponding output value, and changes the display mode of the avatar.

このとき、サーバ20は、変化条件として、下記を含む条件を定義して記憶部に記憶してもよい。
・アバターに反映させるユーザの感情に対応して定義された変化条件(喜怒哀楽等)
・動画配信において用いられる楽曲に関する情報に対応して定義された変化条件(楽曲のジャンル等)
・ユーザの声に関する情報に対応して定義された変化条件(ユーザの感情等)
ここで、変化条件について例示する。
変化条件は、取得したユーザの顔の各部位のセンシング結果それぞれに対する閾値の条件を設定された条件であり、上述した喜怒哀楽等に応じて定義され、記憶部202に記憶されている。制御部190は、当該変化条件の一つを参照することで、当該変化条件に含まれるユーザの顔の各部位に対する閾値の条件をユーザのセンシング結果に適用し、アバターの表示態様(表情)が、対応する出力値になるようアバターの表情を変化させる。
At this time, the server 20 may define conditions including the following as the change conditions and store them in the storage unit.
- Change conditions defined according to the user's emotions to be reflected in the avatar (e.g. joy, anger, sadness, happiness, etc.)
- Change conditions defined in response to information about music used in video distribution (music genre, etc.)
- Change conditions defined in response to information about the user's voice (user's emotions, etc.)
Here, examples of the change conditions will be given.
The change conditions are conditions in which threshold conditions are set for each of the acquired sensing results of each part of the user's face, are defined according to the above-mentioned joy, anger, sadness, happiness, etc., and are stored in the storage unit 202. By referring to one of the change conditions, the control unit 190 applies the threshold condition for each part of the user's face included in the change condition to the user's sensing results, and changes the facial expression of the avatar so that the display mode (facial expression) of the avatar becomes the corresponding output value.

これにより、ユーザは、各種変化条件によりアバターの表情を変化させることで、アバターの表情が視聴者に違和感を与えることを防ぐことができ、より視聴者の没入感を高めることができる。
このとき、変化条件はサーバ20の記憶部ではなく、端末装置10Aの記憶部180に記憶されていてもよい。
This allows the user to change the avatar's facial expression according to various change conditions, thereby preventing the avatar's facial expression from making the viewer feel uncomfortable, thereby further increasing the viewer's sense of immersion.
In this case, the change condition may be stored in the storage unit 180 of the terminal device 10A, not in the storage unit of the server 20.

ある局面において、端末装置10Aの制御部190は、アバターの種類に応じて設定される属性の情報を取得し、当該取得したアバターの属性に応じて、アバターの属性ごとに予め設定された補正係数を用いて出力値を補正したうえで、アバターの表示態様を変化させてもよい。
具体的には、制御部190は、アバターの種類に紐づけられた属性として、下記の情報を取得する。
・人間
・人間であるが、特定の職業(アイドル等)
・人間とは異なる生物(動物、植物等)
・空想上の生物(竜、天使、悪魔等)
・機械
・不定形の存在(ファンタジーにおけるスライム、ゴースト等)
また、サーバ20は、記憶部202に、当該属性に対応して、アバターの顔の動作を補正するための補正係数に関する情報を記憶していてもよい。
例えば、端末装置10Aの制御部190は、動画配信を行うユーザから、予め、配信において用いるアバターに関する情報を受け付ける。アバターには、上記属性の情報が紐づけられており、制御部190は、受け付けたアバターの情報に基づいて、属性データベース2025を参照する。制御部190は、当該属性データベース2025から、ユーザが使用するアバターごとの出力値の補正係数を取得する。制御部190は、前述した変化条件に基づき、ユーザのセンシング結果をアバターの表示態様を変化させる出力値として出力する際に、当該属性に紐づけられた補正係数を用い、実際の出力値として出力し、アバターの表示態様を変化させる。
In one aspect, the control unit 190 of the terminal device 10A may acquire information on attributes that are set according to the type of avatar, and may change the display mode of the avatar after correcting the output value using a correction coefficient that is preset for each avatar attribute according to the acquired avatar attributes.
Specifically, the control unit 190 acquires the following information as attributes associated with the type of avatar:
・Human ・Human with a specific occupation (idol, etc.)
・Organisms other than humans (animals, plants, etc.)
・Imaginary creatures (dragons, angels, devils, etc.)
・Machines ・Amorphous entities (slime, ghosts, etc. in fantasy)
Furthermore, the server 20 may store, in the storage unit 202, information on a correction coefficient for correcting the facial movement of the avatar in correspondence with the attribute.
For example, the control unit 190 of the terminal device 10A receives information on an avatar to be used in the video distribution from a user who distributes videos in advance. The avatar is associated with the above-mentioned attribute information, and the control unit 190 refers to the attribute database 2025 based on the received avatar information. The control unit 190 acquires a correction coefficient for the output value for each avatar used by the user from the attribute database 2025. When outputting the user's sensing result as an output value that changes the display mode of the avatar based on the above-mentioned change condition, the control unit 190 uses the correction coefficient associated with the attribute, outputs it as an actual output value, and changes the display mode of the avatar.

また、ある局面において、制御部190は、記憶部180に記憶された複数の変化条件のうち、参照する変化条件についての選択をユーザから受け付け、当該選択された変化条件を参照して、アバターの表示態様を変化させてもよい。
具体的には、制御部190は、アバターの表示態様を変化させる際に参照する変化条件の候補に関する情報をユーザに提示し、ユーザから当該候補を選択する入力操作を受け付けてもよい。
このとき、端末装置10Aの制御部190は、変化条件データベース2024に記憶されている変化条件をユーザに候補として表示し、当該候補に対するユーザからの選択を受け付けることで、参照する変化条件を決定してもよい。
その後、制御部190は、当該選択された変化条件をユーザの顔のセンシング結果に適用し、アバターの顔の表示態様を、当該変化条件において設定されている出力値に応じて変化させる。
これにより、ユーザは、動画配信等を行う際、状況に適した変化条件に応じてアバターの顔の表示態様を変化させることができる。
In addition, in a certain aspect, the control unit 190 may accept a selection from the user regarding a change condition to be referenced from among multiple change conditions stored in the memory unit 180, and change the display mode of the avatar by referring to the selected change condition.
Specifically, the control unit 190 may present to the user information regarding candidates for change conditions to be referenced when changing the display mode of the avatar, and receive an input operation from the user to select the candidate.
At this time, the control unit 190 of the terminal device 10A may determine the change condition to be referenced by displaying the change conditions stored in the change condition database 2024 as candidates to the user and accepting the user's selection from among the candidates.
Thereafter, the control unit 190 applies the selected change condition to the sensing result of the user's face, and changes the display mode of the avatar's face according to the output value set in the change condition.
This allows the user to change the display mode of the avatar's face in accordance with change conditions suited to the situation when distributing video or the like.

ある局面において、制御部190は、ユーザから動画配信に用いられる楽曲の指定を受け付けてもよい。このとき、変化条件には、楽曲に関する情報が紐づけられており、制御部190は、動画配信に用いられる楽曲に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させてもよい。 In one aspect, the control unit 190 may receive a designation of a piece of music to be used in the video distribution from the user. At this time, information related to the music is linked to the change condition, and the control unit 190 may change the display mode of the avatar by referring to the change condition linked to the information related to the music to be used in the video distribution.

このとき、楽曲に関する情報としては、楽曲の名称、歌手、曲種、歌詞、曲調からなる群の少なくとも1つが含まれてもよい。
具体的には、サーバ20は、予め、楽曲のメタデータに関する情報と、当該メタデータに関する情報と紐づいた変化条件の情報とを記憶部202に楽曲データベース2027として記憶している。例えば、端末装置10Aは、楽曲の情報を取得すると、楽曲データベース2027を参照し、当該楽曲に含まれるメタデータを参照することで、楽曲の情報のうち、アルバム名、トラックのタイトル(楽曲の名称)、アルバム内のトラック番号、実演家名(歌手名)、作詞者名、作曲者名、編曲者名、演奏時間、歌詞、作品コード、商品番号、権利者名、楽曲のジャンル(曲調)等の情報を取得する。このとき、楽曲データベース2027には、楽曲に関する情報と、対応する変化条件の情報とが紐づけられている。制御部190は、当該メタデータに対応する楽曲の変化条件を参照し、アバターの表示態様の変化に適用する。
これにより、ユーザは、動画配信において用いる楽曲の情報に基づいて、適切なアバターの顔の表示態様に変化させることができる。
In this case, the information about the song may include at least one of the group consisting of the song name, singer, type of music, lyrics, and melody.
Specifically, the server 20 stores in advance information on the metadata of the music and information on the change conditions linked to the information on the metadata in the storage unit 202 as the music database 2027. For example, when the terminal device 10A acquires information on a music piece, it refers to the music database 2027 and metadata included in the music piece to acquire information on the music piece, such as the album name, track title (song name), track number in the album, performer name (singer name), lyricist name, composer name, arranger name, performance time, lyrics, work code, product number, right holder name, and music genre (tune). At this time, the music database 2027 associates information on the music piece with information on the corresponding change conditions. The control unit 190 refers to the change conditions of the music piece corresponding to the metadata and applies them to the change in the display mode of the avatar.
This allows the user to appropriately change the display mode of the avatar's face based on the information of the music used in the video distribution.

ある局面において、制御部190は、異なる楽曲が連続して配信される動画配信において、先に配信される楽曲の終了前の所定の時間帯では、その後に配信される楽曲に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させてもよい。
具体的には、制御部190は、ユーザが異なる複数の楽曲を連続して配信するとき(例えば、歌唱等を配信する場面において、連続して異なる楽曲を歌唱する場合等)、先に配信される楽曲のメタデータから再生時間を特定し、当該再生時間の所定の時間前に、次に配信される楽曲の変化条件を参照し、アバターの表示態様の変化に反映させてもよい。
これにより、ユーザは、複数の異なる楽曲を連続して配信する際にも、円滑に変化条件を適応させてアバターの表示態様を変化させることができる。
In one aspect, in a video distribution in which different songs are distributed consecutively, the control unit 190 may change the display mode of the avatar during a specified time period before the end of the previously distributed song by referring to a change condition linked to information related to the song to be distributed subsequently.
Specifically, when a user distributes multiple different songs in succession (for example, when singing different songs in succession in a scene where singing is distributed), the control unit 190 may identify the playback time from the metadata of the song that is distributed first, and a predetermined time before the playback time, refer to the change conditions of the next song to be distributed and reflect this in the change in the display mode of the avatar.
This allows the user to smoothly adapt the change conditions and change the display mode of the avatar, even when a plurality of different songs are delivered in succession.

また、ある局面において、変化条件には、ユーザの声に関する情報が紐づけられており、制御部190は、ユーザの声に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させてもよい。 In addition, in some aspects, the change conditions may be linked to information related to the user's voice, and the control unit 190 may change the display mode of the avatar by referring to the change conditions linked to the information related to the user's voice.

このとき、ユーザの声に関する情報としては、ユーザの音声スペクトルから特定される、ユーザの声の高低、速さ、テンポ、大きさからなる少なくとも1つの情報が含まれてもよい。
具体的には、制御部190は、マイク141等を介して取得したユーザの声に含まれる音声スペクトルから、下記を含む情報を特定する。
・ユーザの声の高低
・ユーザの声の速さ
・ユーザの声のテンポ
・ユーザの声の大きさ
サーバ20は、当該ユーザの音声スペクトルから特定された情報と、変化条件とを紐づけて記憶部に記憶しており(例えば、ユーザの声の高低が所定の値だった場合に、変化条件の「アンニュイ」等を紐づけている)、マイク141等を介して取得したユーザの声に関する情報から、参照する変化条件を特定する。
これにより、ユーザは、自身の声の特徴等に応じて、適切な変化条件を参照することができる。
In this case, the information about the user's voice may include at least one piece of information about the pitch, speed, tempo, and volume of the user's voice, which is identified from the user's voice spectrum.
Specifically, the control unit 190 identifies information including the following from the voice spectrum contained in the user's voice acquired via the microphone 141 or the like.
- Pitch of the user's voice - Speed of the user's voice - Tempo of the user's voice - Volume of the user's voice The server 20 links the information identified from the user's voice spectrum to a change condition and stores it in a memory unit (for example, when the pitch of the user's voice is a specified value, it is linked to a change condition such as "ennui"), and identifies the change condition to be referenced from information about the user's voice acquired via the microphone 141, etc.
This allows the user to refer to appropriate change conditions according to the characteristics of his or her own voice, etc.

ある局面において、制御部190は、センシング結果に含まれるユーザの顔が、撮影された動画の画面サイズに占める割合を算出し、当該算出された割合に応じて、予め設定された補正係数を用いて出力値を補正したうえで、アバターの表示態様を変化させてもよい。
具体的には、制御部190は、カメラ160等を介して取得したユーザのセンシング結果に含まれるユーザの顔のサイズが、撮影された動画の画面サイズに占める割合を算出する。例えば、カメラ160等を介して撮影されたユーザの顔のサイズ(画面に表示される際のサイズ、ピクセル数)が、画面全体のサイズ、ピクセル数に占める割合を算出する。その後、制御部190は。当該割合が所定の割合であった場合に、ユーザのセンシング結果を変化条件に基づいて出力した出力値を、補正係数を用いて補正し、アバターの表示態様を変化させる。
In one aspect, the control unit 190 may calculate the proportion of the user's face included in the sensing result in the screen size of the captured video, and change the display mode of the avatar after correcting the output value using a preset correction coefficient according to the calculated proportion.
Specifically, the control unit 190 calculates the ratio of the size of the user's face included in the user's sensing result acquired via the camera 160 or the like to the screen size of the captured video. For example, the control unit 190 calculates the ratio of the size of the user's face captured via the camera 160 or the like (the size when displayed on the screen, the number of pixels) to the overall screen size and number of pixels. After that, if the ratio is a predetermined ratio, the control unit 190 corrects the output value outputted from the user's sensing result based on the change condition using a correction coefficient, and changes the display mode of the avatar.

例えば、制御部190は、上記処理により、ユーザのセンシング結果に含まれるユーザの顔の
サイズが撮影された動画の画面サイズに占める割合を算出したのち、画面補正データベース2026を参照する。その後、制御部190は、当該割合から、画面補正データベース2026において紐づけられている補正係数の情報を取得し、変化条件データベース2024を参照して出力された出力値を補正係数により補正する。制御部190は、当該補正された出力値を、アバターの表示態様を変化させる数値として反映させ、アバターの表示態様を変化させる。
これにより、ユーザは、自身の顔が画面に近い時などに、通常より誇張した表現でアバターの表示態様を変化させることができ、視聴者により没入感を与えることができる。
なお、上記一連の処理において、ユーザが使用する端末装置10Aが全ての処理を担う場合を例示したが、本開示は上記に限られず、一部処理をサーバ20が担ってもよい。例えば、制御部190は、カメラ160等を介して取得したユーザのセンシング結果の情報を、サーバ20に送信し、サーバ20によりアバターの出力値の出力を行わせてもよい。その後、制御部190は、サーバ20から出力値の情報を受信し、当該出力値に基づいて、アバターの表示態様を変化させてもよい。
For example, the control unit 190 calculates the ratio of the size of the user's face included in the user sensing result to the screen size of the captured video by the above process, and then refers to the screen correction database 2026. The control unit 190 then obtains information on the correction coefficient linked to the ratio in the screen correction database 2026, and corrects the output value output by referring to the change condition database 2024 with the correction coefficient. The control unit 190 reflects the corrected output value as a numerical value that changes the display mode of the avatar, and changes the display mode of the avatar.
This allows the user to change the display mode of the avatar in a more exaggerated manner than usual when, for example, the user's face is close to the screen, thereby providing the viewer with a greater sense of immersion.
In the above series of processes, the case where the terminal device 10A used by the user is responsible for all of the processes has been exemplified, but the present disclosure is not limited to the above, and some of the processes may be carried out by the server 20. For example, the control unit 190 may transmit information on the sensing results of the user acquired via the camera 160 or the like to the server 20, and cause the server 20 to output an output value of the avatar. Thereafter, the control unit 190 may receive information on the output value from the server 20, and change the display mode of the avatar based on the output value.

<9 第3の実施形態における画面例>
図23~図25は、第3の実施形態において開示される、取得したユーザのセンシング結果を、変化条件に基づいて出力値に応じてアバターの態様を変化させる際の各種画面例を示す図である。
<9. Screen Examples in the Third Embodiment>
23 to 25 are diagrams showing various example screens when the acquired sensing results of a user are changed according to an output value based on a change condition, as disclosed in the third embodiment.

図23は、ユーザの目のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。 Figure 23 shows an example screen in which the display mode of the avatar is changed according to the output value outputted under a specified change condition based on the sensing results of the user's eyes.

図23において、端末装置10Aのディスプレイ1302には、設定画面2301と、ユーザ2302と、アバター2303とが表示されている。
設定画面2301において、端末装置10Aの制御部190は、アバターに反映するユーザのセンシング結果に対する閾値の情報を表示する。
例えば、制御部190は、下記の情報を表示する。
・ユーザのセンシング部位
・センシング部位のセンシング結果
・センシング部位に対する閾値の条件
・閾値の条件を満たした場合にアバターに反映させる表情
端末装置10Aは、カメラ160等を介してユーザ2202を撮影し、設定画面2201にセンシング結果等を表示する。また、端末装置10Aは、取得したセンシング結果を、設定された変化条件に基づいて動きを反映させたアバター2303を併せてディスプレイ1302等に表示してもよい。
これにより、ユーザは、自身のセンシング結果と併せて、視聴者に表示されるアバターの様子を把握することができる。
In FIG. 23, a setting screen 2301, a user 2302, and an avatar 2303 are displayed on the display 1302 of the terminal device 10A.
On the setting screen 2301, the control unit 190 of the terminal device 10A displays information on thresholds for the user's sensing results to be reflected in the avatar.
For example, the control unit 190 displays the following information:
- Sensing part of the user - Sensing result of the sensing part - Threshold condition for the sensing part - Facial expression to be reflected in the avatar when the threshold condition is satisfied The terminal device 10A photographs the user 2202 via the camera 160 or the like, and displays the sensing result or the like on the setting screen 2201. Furthermore, the terminal device 10A may display the acquired sensing result on the display 1302 or the like together with an avatar 2303 whose movement is reflected based on the set change condition.
This allows the user to understand the state of the avatar displayed to the viewer in addition to his or her own sensing results.

図24は、ユーザの目、目以外の顔の部位のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。 Figure 24 shows an example screen in which the display mode of the avatar is changed according to the output values output under specified change conditions based on the sensing results of the user's eyes and other facial parts.

図24において、端末装置10Aのディスプレイ1302には、設定画面2401と、ユーザ2402と、アバター2403とが表示されている。
設定画面2401において、端末装置10Aの制御部190は、図23における設定画面2301と同様に、アバターに反映するユーザのセンシング結果に対する閾値の情報を表示する。
例えば、制御部190は、下記の情報を表示する。
・ユーザのセンシング部位
・センシング部位各部のセンシング結果
・センシング部位各部に対する閾値の条件
・閾値の条件を満たした場合にアバターに反映させる表情
端末装置10Aは、カメラ160等を介してユーザ2402を撮影し、設定画面2401にセンシング結果等を表示する。また、端末装置10Aは、取得したセンシング結果を、設定された変化条件に基づいて動きを反映させたアバター2403を併せてディスプレイ1302等に表示してもよい。
これにより、ユーザは、複数センシング部位がある場合でも、適切に表情を変化させることができる。
In FIG. 24, a setting screen 2401, a user 2402, and an avatar 2403 are displayed on the display 1302 of the terminal device 10A.
On the setting screen 2401, the control unit 190 of the terminal device 10A displays information on thresholds for the user's sensing results to be reflected in the avatar, similar to the setting screen 2301 in FIG.
For example, the control unit 190 displays the following information:
- Sensing parts of the user - Sensing results of each part of the sensing parts - Threshold conditions for each part of the sensing parts - Facial expression to be reflected in the avatar when the threshold conditions are met The terminal device 10A photographs the user 2402 via the camera 160 or the like, and displays the sensing results and the like on the setting screen 2401. Furthermore, the terminal device 10A may display the acquired sensing results on the display 1302 or the like together with an avatar 2403 whose movement is reflected based on the set change conditions.
This allows the user to appropriately change their facial expression even when there are multiple sensing parts.

図25は、ユーザのアバターの属性が所定の属性の時に、ユーザの目のセンシング結果を、所定の変化条件により出力した出力値に応じてアバターの表示態様を変化させる際の画面例を示す。 Figure 25 shows an example of a screen in which the display mode of a user's avatar changes according to the output value outputted under a specified change condition based on the sensing result of the user's eyes when the attribute of the user's avatar is a specified attribute.

図25において、端末装置10Aのディスプレイ1302には、設定画面2501と、ユーザ2502と、アバター2503とが表示されている。
設定画面2501において、端末装置10Aの制御部190は、図23における設定画面2301等と同様に、アバターに反映するユーザのセンシング結果に対する閾値の条件の情報を表示する。
例えば、制御部190は、下記の情報を表示する。
・ユーザのセンシング部位
・センシング部位各部のセンシング結果
・センシング部位各部に対する閾値
・閾値の条件を満たした場合にアバターに反映させる表情
・ユーザに対応するアバターの属性
端末装置10Aは、カメラ160等を介してユーザ2502を撮影し、設定画面2501にセンシング結果等を表示する。また、端末装置10Aは、取得したセンシング結果を、変化条件およびアバターの属性に基づいて動きを反映させたアバター2503を併せてディスプレイ1302等に表示してもよい。
例えば、図25において、目のセンシング結果は「0.40」であり、閾値の条件が「<0.50」であるため、目の部位の開閉度合いの出力値は「0」としてアバターの動きに反映されるが、目以外の部位(例えば、口等)は、アバターの属性に応じて出力値を所定の補正係数を用いて補正した値を反映させる。
これにより、ユーザは、アバターが多種多様であっても、適切に表情を変化させることができる。
In FIG. 25, a setting screen 2501, a user 2502, and an avatar 2503 are displayed on the display 1302 of the terminal device 10A.
On the setting screen 2501, the control unit 190 of the terminal device 10A displays information on threshold conditions for the sensing results of the user to be reflected in the avatar, similar to the setting screen 2301 in FIG.
For example, the control unit 190 displays the following information:
- Sensing parts of the user - Sensing results of each part of the sensing parts - Thresholds for each part of the sensing parts - Facial expression to be reflected in the avatar when the threshold conditions are met - Avatar attributes corresponding to the user The terminal device 10A photographs the user 2502 via the camera 160 or the like, and displays the sensing results and the like on the setting screen 2501. The terminal device 10A may also display the acquired sensing results on the display 1302 or the like together with an avatar 2503 whose movement is reflected based on the change conditions and the avatar attributes.
For example, in FIG. 25, the eye sensing result is "0.40" and the threshold condition is "<0.50", so the output value of the degree of opening and closing of the eyes is reflected in the movement of the avatar as "0", but for parts other than the eyes (e.g., the mouth, etc.), a value is reflected that is obtained by correcting the output value using a predetermined correction coefficient according to the attributes of the avatar.
This allows the user to appropriately change their facial expression even if the avatar is of a wide variety.

<10 変形例>
本実施形態の変形例について説明する。すなわち、以下のような態様を採用してもよい。
(1)情報処理装置であって、このプログラムが予めインストールされていてもよいし、事後的にインストールされてもよいし、このようなプログラムを外部の非一時的な記憶媒体に記憶させてもよいし、クラウドコンピューティングで動作させてもよい。
(2)方法であって、コンピュータを情報処理装置として機能させ、当該情報処理装置に、このプログラムが予めインストールされていてもよいし、事後的にインストールされてもよいし、このようなプログラムを外部の非一時的な記憶媒体に記憶させてもよいし、クラウドコンピューティングで動作させてもよい。
<10 Modification>
A modified example of this embodiment will be described below. That is, the following aspects may be adopted.
(1) An information processing device in which the program may be pre-installed or may be installed later, such a program may be stored on an external non-transitory storage medium, or may be run by cloud computing.
(2) A method in which a computer functions as an information processing device, and the program may be pre-installed on the information processing device or may be installed later, such a program may be stored on an external non-transitory storage medium, or may be run using cloud computing.

<11 付記>
以上の各実施形態で説明した事項を以下に付記する。
<11 Notes>
The matters described in the above embodiments will be supplemented below.

(付記1)
プロセッサ29を備えるコンピュータ20によって実行されるプログラムであって、プログラムは、プロセッサ29に、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、表示態様を変化させるステップでは、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定するステップと、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行させるプログラム。
(Appendix 1)
A program executed by a computer 20 having a processor 29, the program causing the processor 29 to execute the steps of: accepting a result of sensing the movement of one or more facial parts of a user who is to perform video distribution; and performing video distribution using an avatar corresponding to the user based on the accepted result of sensing the movement of the one or more facial parts, and at this time changing a display mode of the one or more facial parts of the avatar, wherein the step of changing the display mode includes a step of identifying eye movement among the user's facial parts based on the sensing result; and a step of changing the display mode of the avatar corresponding to the user to a first facial expression if the identified eye movement of the user satisfies a first condition.

(付記2)
第1の条件とは、ユーザが目を所定の閾値以上閉じることであり、第1の表情とは、アバターの目が閉じられた表情である、付記1に記載のプログラム。
(Appendix 2)
2. The program of claim 1, wherein the first condition is that the user closes their eyes by a predetermined threshold or more, and the first facial expression is an facial expression in which the avatar's eyes are closed.

(付記3)
表示態様を変化させるステップでは、特定されたユーザの目の動き、およびユーザの目以外の顔の各部位の動きが、第1の条件とは異なる第2の条件を満たす場合に、アバターの表示態様を、第1の表情とは異なる第2の表情に変化させる、付記1又は2に記載のプログラム。
(Appendix 3)
The program described in Appendix 1 or 2, in which the step of changing the display mode changes the display mode of the avatar to a second facial expression different from the first facial expression when the identified user's eye movement and the movement of each part of the user's face other than the eyes satisfy a second condition different from the first condition.

(付記4)
コンピュータ20は記憶部16を備え、この記憶部16には、表示態様を変化させる条件である変化条件として、センシングしたユーザの目の動き、およびユーザの目以外の顔の各部位の動きの範囲と、当該範囲を満たす場合にアバターを表示させるべき表示態様として、当該アバターの目および顔の各部位を表示させる出力値と、が予め対応づけられて複数記憶されており、表示態様を変化させるステップでは、変化条件を参照して、センシングしたユーザの目の動き、およびユーザの目以外の顔の各部位の動きそれぞれが、該当する変化条件における各出力値となるように、アバターの表示態様を変化させる、付記1に記載のプログラム。
(Appendix 4)
The computer 20 has a memory unit 16, and the memory unit 16 stores a plurality of change conditions for changing the display mode, which are ranges of the sensed movement of the user's eyes and the movement of each part of the user's face other than the eyes, and output values for displaying the avatar's eyes and each part of the face when the ranges are satisfied, as the display mode in which the avatar should be displayed.The program described in Appendix 1, in which, in the step of changing the display mode, the display mode of the avatar is changed by referring to the change conditions so that the sensed movement of the user's eyes and the movement of each part of the face other than the user's eyes each become the output value under the corresponding change condition,

(付記5)
プロセッサ29に、さらに、アバターの種類に応じて設定される属性の情報を取得するステップを実行させ、表示態様を変化させるステップでは、取得したアバターの属性に応じて、アバターの属性ごとに予め設定された補正係数を用いて出力値を補正したうえで、アバターの表示態様を変化させる、付記4に記載のプログラム。
(Appendix 5)
The program described in Appendix 4 further causes the processor 29 to execute a step of acquiring information on attributes that are set according to the type of avatar, and in the step of changing the display mode, corrects the output value using a correction coefficient that is preset for each avatar attribute according to the acquired avatar attributes, and then changes the display mode of the avatar.

(付記6)
プロセッサ29に、さらに、記憶部16に記憶された複数の変化条件のうち、参照する変化条件についての選択をユーザから受け付けるステップを実行させ、表示態様を変化させるステップでは、選択された変化条件を参照して、アバターの表示態様を変化させる、付記4に記載のプログラム。
(Appendix 6)
The program described in Appendix 4 further causes the processor 29 to execute a step of receiving from the user a selection of a change condition to be referenced from among multiple change conditions stored in the memory unit 16, and in the step of changing the display mode, changes the display mode of the avatar by referring to the selected change condition.

(付記7)
プロセッサ29に、さらに、動画配信に用いられる楽曲の指定を受け付けるステップを実行させ、変化条件には、楽曲に関する情報が紐づけられており、表示態様を変化させるステップでは、動画配信に用いられる楽曲に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させる、付記4に記載のプログラム。
(Appendix 7)
The program described in Appendix 4 further causes the processor 29 to execute a step of accepting designation of a piece of music to be used in the video distribution, wherein the change conditions are linked to information related to the music, and in the step of changing the display mode, the display mode of the avatar is changed by referring to the change conditions linked to the information related to the music to be used in the video distribution.

(付記8)
楽曲に関する情報としては、楽曲の名称、歌手、曲種、歌詞、曲調からなる群の少なくとも1つが含まれる、付記7に記載のプログラム。
(Appendix 8)
The program according to claim 7, wherein the information about the song includes at least one of the group consisting of the song name, singer, type of song, lyrics, and melody.

(付記9)
表示態様を変化させるステップでは、異なる楽曲が連続して配信される動画配信において、先に配信される楽曲の終了前の所定の時間帯では、その後に配信される楽曲に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させる、付記7に記載のプログラム。
(Appendix 9)
The program described in Appendix 7, in which in the step of changing the display mode, in a video distribution in which different songs are distributed consecutively, during a specified time period before the end of a previously distributed song, the display mode of the avatar is changed by referring to a change condition linked to information about the song to be distributed subsequently.

(付記10)
変化条件には、ユーザの声に関する情報が紐づけられており、表示態様を変化させるステップでは、ユーザの声に関する情報と紐づけられた変化条件を参照して、アバターの表示態様を変化させる、付記4に記載のプログラム。
(Appendix 10)
The program described in Appendix 4, in which the change conditions are linked to information related to the user's voice, and in the step of changing the display mode, the display mode of the avatar is changed by referring to the change conditions linked to the information related to the user's voice.

(付記11)
ユーザの声に関する情報としては、ユーザの音声スペクトルから特定される、ユーザの声の高低、速さ、テンポ、大きさからなる少なくとも1つの情報が含まれる、付記10に記載のプログラム。
(Appendix 11)
The program according to claim 10, wherein the information relating to the user's voice includes at least one of the pitch, speed, tempo, and volume of the user's voice, which is identified from the user's voice spectrum.

(付記12)
プロセッサ29に、さらに、センシング結果に含まれるユーザの顔が、撮影された動画の画面サイズに占める割合を算出するステップを実行させ、表示態様を変化させるステップでは、算出された割合に応じて、予め設定された補正係数を用いて出力値を補正したうえで、アバターの表示態様を変化させる、付記4に記載のプログラム。
(Appendix 12)
The program described in Appendix 4 further causes the processor 29 to execute a step of calculating the proportion of the user's face included in the sensing result to the screen size of the captured video, and in the step of changing the display mode, corrects the output value using a predetermined correction coefficient according to the calculated proportion, and then changes the display mode of the avatar.

(付記13)
プロセッサ29を備えるコンピュータ20によって実行される方法であって、方法は、プロセッサ29が、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、表示態様を変化させるステップでは、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定するステップと、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行する、方法。
(Appendix 13)
A method executed by a computer 20 having a processor 29, the method comprising the steps of: receiving a result of sensing the movement of one or more facial parts of a user who is to perform video distribution, and performing video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time changing a display mode of the one or more facial parts of the avatar, wherein the step of changing the display mode includes a step of identifying eye movement among the user's facial parts based on the sensing result, and a step of changing the display mode of the avatar corresponding to the user to a first facial expression if the identified eye movement of the user satisfies a first condition.

(付記14)
制御部203を備える情報処理装置20であって、制御部203が、動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付ける手段と、受け付けた、1または複数の顔の部位の動きをセンシングした結果に基づいて、ユーザに対応するアバターを用いて動画配信を行い、このとき、アバターの1または複数の顔の部位の表示態様を変化させる手段と、を備え、表示態様を変化させる手段では、センシング結果に基づき、ユーザの顔の部位のうち、目の動きを特定する手段と、特定されたユーザの目の動きが、第1の条件を満たす場合に、ユーザに対応するアバターの表示態様を、第1の表情に変化させる手段と、を備える、情報処理装置20。
(Appendix 14)
An information processing device 20 comprising a control unit 203, wherein the control unit 203 comprises means for receiving a result of sensing the movement of one or more facial parts of a user who is to perform video distribution, and means for performing video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time, means for changing a display mode of the one or more facial parts of the avatar, wherein the means for changing the display mode comprises means for identifying eye movement among the user's facial parts based on the sensing result, and means for changing the display mode of the avatar corresponding to the user to a first expression when the identified eye movement of the user satisfies a first condition.

10 端末装置、12 通信インタフェース、13 入力装置、14 出力装置、15 メモリ、16 記憶部、19 プロセッサ、20 サーバ、22 通信インタフェース、23 入出力インタフェース、25 メモリ、26 ストレージ、29 プロセッサ、80 ネットワーク、1801 ユーザ情報、1802 アバター情報、1803 ウェアラブルデバイス情報、1901 入力操作受付部、1902 送受信部、1903 データ処理部、1904 報知制御部、1302 ディスプレイ、140 音声処理部、141 マイク、142 スピーカ、150 位置情報センサ、160 カメラ、170 モーションセンサ、2021 ユーザ情報データベース、2022 アバター情報データベース、2023 ウェアラブルデバイス情報データベース、2024 変化条件データベース、2025 属性データベース、2026 画面補正データベース、2027 楽曲データベース、2031 受信制御モジュール、2032 送信制御モジュール、2033 ユーザ情報取得モジュール、2034 アバター情報取得モジュール、2035 音声スペクトル取得モジュール、2036 アバター変化モジュール、2037 アバター提示モジュール、2038 設定受付モジュール、2039 ウェアラブルデバイス情報取得モジュール、2040 変化補正モジュール。
LIST OF SYMBOLS 10 Terminal device, 12 Communication interface, 13 Input device, 14 Output device, 15 Memory, 16 Storage unit, 19 Processor, 20 Server, 22 Communication interface, 23 Input/output interface, 25 Memory, 26 Storage, 29 Processor, 80 Network, 1801 User information, 1802 Avatar information, 1803 Wearable device information, 1901 Input operation reception unit, 1902 Transmission/reception unit, 1903 Data processing unit, 1904 Notification control unit, 1302 Display, 140 Audio processing unit, 141 Microphone, 142 Speaker, 150 Position information sensor, 160 Camera, 170 Motion sensor, 2021 User information database, 2022 Avatar information database, 2023 Wearable device information database, 2024 Change condition database, 2025 Attribute database, 2026 Screen correction database, 2027 Music database, 2031 reception control module, 2032 transmission control module, 2033 user information acquisition module, 2034 avatar information acquisition module, 2035 voice spectrum acquisition module, 2036 avatar change module, 2037 avatar presentation module, 2038 setting reception module, 2039 wearable device information acquisition module, 2040 change correction module.

Claims (14)

プロセッサを備えるコンピュータによって実行されるプログラムであって、前記プログラムは、前記プロセッサに、
動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、
前記受け付けた、前記1または複数の顔の部位の動きをセンシングした結果に基づいて、前記ユーザに対応するアバターを用いて前記動画配信を行い、このとき、前記アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、
前記表示態様を変化させるステップでは、
前記センシング結果に基づき、前記ユーザの顔の部位のうち、目の動きを特定するステップと、
前記特定された前記ユーザの目の動きが、第1の条件を満たす場合に、前記ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行させるプログラム。
A program executed by a computer having a processor, the program causing the processor to:
receiving a result of sensing the movement of one or more facial parts of a user who delivers video;
performing the video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time, changing a display mode of the one or more facial parts of the avatar;
In the step of changing the display mode,
Identifying eye movements among the parts of the user's face based on the sensing result;
A program that executes a step of changing the display mode of an avatar corresponding to the user to a first facial expression when the identified eye movement of the user satisfies a first condition.
前記第1の条件とは、前記ユーザが目を所定の閾値以上閉じることであり、
前記第1の表情とは、前記アバターの目が閉じられた表情である、請求項1に記載のプログラム。
the first condition is that the user closes his/her eyes by a predetermined threshold or more;
The program of claim 1 , wherein the first facial expression is an expression in which the avatar's eyes are closed.
前記表示態様を変化させるステップでは、
前記特定された前記ユーザの目の動き、および前記ユーザの目以外の顔の各部位の動きが、前記第1の条件とは異なる第2の条件を満たす場合に、前記アバターの表示態様を、前記第1の表情とは異なる第2の表情に変化させる、請求項1又は2に記載のプログラム。
In the step of changing the display mode,
The program described in claim 1 or 2, wherein when the identified eye movement of the user and the movement of each part of the user's face other than the eyes satisfy a second condition different from the first condition, the display mode of the avatar is changed to a second expression different from the first expression.
前記コンピュータは記憶部を備え、この記憶部には、前記表示態様を変化させる条件である変化条件として、センシングした前記ユーザの目の動き、および前記ユーザの目以外の顔の各部位の動きの範囲と、当該範囲を満たす場合に前記アバターを表示させるべき表示態様として、当該アバターの目および前記顔の各部位を表示させる出力値と、が予め対応づけられて複数記憶されており、
前記表示態様を変化させるステップでは、
前記変化条件を参照して、センシングした前記ユーザの前記目の動き、および前記ユーザの目以外の顔の各部位の動きそれぞれが、該当する前記変化条件における各出力値となるように、前記アバターの表示態様を変化させる、請求項1に記載のプログラム。
the computer includes a storage unit, and the storage unit stores a plurality of change conditions for changing the display mode, the ranges of the sensed eye movements of the user and the ranges of the movements of each part of the face other than the eyes of the user, and output values for displaying the eyes and each part of the face of the avatar as a display mode in which the avatar should be displayed when the ranges are satisfied, in association with each other in advance;
In the step of changing the display mode,
The program of claim 1 , further comprising: a display mode of the avatar that changes in response to the change conditions such that the sensed movement of the user's eyes and the movement of each part of the user's face other than the eyes each become output values under the corresponding change conditions.
前記プロセッサに、さらに、
前記アバターの種類に応じて設定される属性の情報を取得するステップを実行させ、
前記表示態様を変化させるステップでは、前記取得したアバターの属性に応じて、前記アバターの属性ごとに予め設定された補正係数を用いて前記出力値を補正したうえで、前記アバターの表示態様を変化させる、請求項4に記載のプログラム。
The processor further comprises:
acquiring information on attributes set according to the type of the avatar;
The program according to claim 4, wherein in the step of changing the display mode, the output value is corrected using a correction coefficient preset for each attribute of the avatar in accordance with the acquired attributes of the avatar, and then the display mode of the avatar is changed.
前記プロセッサに、さらに、
前記記憶部に記憶された複数の前記変化条件のうち、参照する前記変化条件についての選択を前記ユーザから受け付けるステップを実行させ、
前記表示態様を変化させるステップでは、選択された前記変化条件を参照して、前記アバターの表示態様を変化させる、請求項4に記載のプログラム。
The processor further comprises:
receiving, from the user, a selection of the change condition to be referenced from among the plurality of change conditions stored in the storage unit;
The program according to claim 4 , wherein in the step of changing the display manner, the display manner of the avatar is changed with reference to the selected change condition.
前記プロセッサに、さらに、
前記動画配信に用いられる楽曲の指定を受け付けるステップを実行させ、
前記変化条件には、前記楽曲に関する情報が紐づけられており、
前記表示態様を変化させるステップでは、前記動画配信に用いられる前記楽曲に関する情報と紐づけられた前記変化条件を参照して、前記アバターの表示態様を変化させる、請求項4に記載のプログラム。
The processor further comprises:
Executing a step of accepting designation of music to be used in the video distribution;
The change condition is associated with information about the music piece,
The program according to claim 4 , wherein in the step of changing the display mode, the display mode of the avatar is changed by referring to the change condition linked to information about the music used in the video distribution.
前記楽曲に関する情報としては、前記楽曲の名称、歌手、曲種、歌詞、曲調からなる群の少なくとも1つが含まれる、請求項7に記載のプログラム。 The program according to claim 7, wherein the information about the song includes at least one of the group consisting of the song's name, singer, type of music, lyrics, and melody. 前記表示態様を変化させるステップでは、
異なる楽曲が連続して配信される前記動画配信において、
先に配信される楽曲の終了前の所定の時間帯では、その後に配信される楽曲に関する情報と紐づけられた前記変化条件を参照して、前記アバターの表示態様を変化させる、請求項7に記載のプログラム。
In the step of changing the display mode,
In the video distribution in which different songs are distributed consecutively,
The program according to claim 7, further comprising: a program for changing the display mode of the avatar during a predetermined time period before the end of a previously distributed song by referring to the change condition linked to information relating to a subsequently distributed song.
前記変化条件には、前記ユーザの声に関する情報が紐づけられており、
前記表示態様を変化させるステップでは、前記ユーザの声に関する情報と紐づけられた前記変化条件を参照して、前記アバターの表示態様を変化させる、請求項4に記載のプログラム。
The change condition is associated with information regarding the user's voice,
The program according to claim 4 , wherein in the step of changing the display manner, the display manner of the avatar is changed by referring to the change condition linked to information related to a voice of the user.
前記ユーザの声に関する情報としては、前記ユーザの音声スペクトルから特定される、前記ユーザの声の高低、速さ、テンポ、大きさからなる少なくとも1つの情報が含まれる、請求項10に記載のプログラム。 The program according to claim 10, wherein the information about the user's voice includes at least one of the pitch, speed, tempo, and volume of the user's voice, which is determined from the user's voice spectrum. 前記プロセッサに、さらに、
前記センシング結果に含まれる前記ユーザの顔が、撮影された動画の画面サイズに占める割合を算出するステップを実行させ、
前記表示態様を変化させるステップでは、算出された前記割合に応じて、予め設定された補正係数を用いて前記出力値を補正したうえで、前記アバターの表示態様を変化させる、請求項4に記載のプログラム。
The processor further comprises:
Executing a step of calculating a ratio of the face of the user included in the sensing result to a screen size of a captured video;
The program according to claim 4 , wherein in the step of changing the display mode, the output value is corrected using a preset correction coefficient in accordance with the calculated ratio, and then the display mode of the avatar is changed.
プロセッサを備えるコンピュータによって実行される方法であって、前記方法は、前記プロセッサが、
動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付けるステップと、
前記受け付けた、前記1または複数の顔の部位の動きをセンシングした結果に基づいて、前記ユーザに対応するアバターを用いて前記動画配信を行い、このとき、前記アバターの1または複数の顔の部位の表示態様を変化させるステップと、を実行させ、
前記表示態様を変化させるステップでは、
前記センシング結果に基づき、前記ユーザの顔の部位のうち、目の動きを特定するステップと、
前記特定されたユーザの目の動きが、第1の条件を満たす場合に、前記ユーザに対応するアバターの表示態様を、第1の表情に変化させるステップと、を実行する、方法。
11. A method implemented by a computer having a processor, the method comprising:
receiving a result of sensing the movement of one or more facial parts of a user who delivers video;
performing the video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time, changing a display mode of the one or more facial parts of the avatar;
In the step of changing the display mode,
Identifying eye movements among the parts of the user's face based on the sensing result;
and if the identified eye movement of the user satisfies a first condition, changing the display manner of an avatar corresponding to the user to a first facial expression.
制御部を備える情報処理装置であって、前記制御部が、
動画配信を行うユーザの顔の部位であって、1または複数の顔の部位の動きをセンシングした結果を受け付ける手段と、
前記受け付けた、前記1または複数の顔の部位の動きをセンシングした結果に基づいて、前記ユーザに対応するアバターを用いて前記動画配信を行い、このとき、前記アバターの1または複数の顔の部位の表示態様を変化させる手段と、を備え、
前記表示態様を変化させる手段では、
前記センシング結果に基づき、前記ユーザの顔の部位のうち、目の動きを特定する手段と、
前記特定されたユーザの目の動きが、第1の条件を満たす場合に、前記ユーザに対応するアバターの表示態様を、第1の表情に変化させる手段と、を備える、情報処理装置。
An information processing device including a control unit,
A means for receiving a result of sensing the movement of one or more facial parts of a user who delivers video;
a means for performing the video distribution using an avatar corresponding to the user based on the received result of sensing the movement of the one or more facial parts, and at this time, changing a display mode of the one or more facial parts of the avatar;
The means for changing the display mode includes:
A means for identifying eye movements among the parts of the user's face based on the sensing result;
and when the eye movement of the identified user satisfies a first condition, changing the display mode of an avatar corresponding to the user to a first facial expression.
JP2022203373A 2022-12-20 2022-12-20 program, method, information processing device Active JP7339420B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022203373A JP7339420B1 (en) 2022-12-20 2022-12-20 program, method, information processing device
JP2023136128A JP2024088576A (en) 2022-12-20 2023-08-24 Program, method, and information processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022203373A JP7339420B1 (en) 2022-12-20 2022-12-20 program, method, information processing device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023136128A Division JP2024088576A (en) 2022-12-20 2023-08-24 Program, method, and information processing device

Publications (2)

Publication Number Publication Date
JP7339420B1 JP7339420B1 (en) 2023-09-05
JP2024088283A true JP2024088283A (en) 2024-07-02

Family

ID=87882226

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2022203373A Active JP7339420B1 (en) 2022-12-20 2022-12-20 program, method, information processing device
JP2023136128A Pending JP2024088576A (en) 2022-12-20 2023-08-24 Program, method, and information processing device

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023136128A Pending JP2024088576A (en) 2022-12-20 2023-08-24 Program, method, and information processing device

Country Status (1)

Country Link
JP (2) JP7339420B1 (en)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021707A (en) * 2012-07-18 2014-02-03 Nikon Corp Information input/output device and information input/output method
JP6845982B2 (en) * 2016-01-13 2021-03-24 フォーブ インコーポレーテッド Facial expression recognition system, facial expression recognition method and facial expression recognition program
WO2018155303A1 (en) * 2017-02-24 2018-08-30 ソニー株式会社 Information processing apparatus, information processing method, and program
CN108876879B (en) * 2017-05-12 2022-06-14 腾讯科技(深圳)有限公司 Method and device for realizing human face animation, computer equipment and storage medium
DK180007B1 (en) * 2017-05-16 2020-01-16 Apple Inc. RECORDING AND SENDING EMOJI
US11182634B2 (en) * 2019-02-05 2021-11-23 Disney Enterprises, Inc. Systems and methods for modifying labeled content
JP7234187B2 (en) * 2020-06-29 2023-03-07 グリー株式会社 Information processing program, information processing method, information processing apparatus
JP6977975B1 (en) * 2020-12-22 2021-12-08 株式会社スワローインキュベート Eye opening / closing detection method, eye opening / closing detection device and eye opening / closing detection program

Also Published As

Publication number Publication date
JP2024088576A (en) 2024-07-02
JP7339420B1 (en) 2023-09-05

Similar Documents

Publication Publication Date Title
US20230105027A1 (en) Adapting a virtual reality experience for a user based on a mood improvement score
JP7312853B2 (en) AI-BASED VOICE-DRIVEN ANIMATION METHOD AND APPARATUS, DEVICE AND COMPUTER PROGRAM
JP7100092B2 (en) Word flow annotation
US20230139626A1 (en) Tying a virtual speaker to a physical space
US11205408B2 (en) Method and system for musical communication
JP6841239B2 (en) Information processing equipment, information processing methods, and programs
US11960792B2 (en) Communication assistance program, communication assistance method, communication assistance system, terminal device, and non-verbal expression program
CN112235635B (en) Animation display method, animation display device, electronic equipment and storage medium
CN110992927B (en) Audio generation method, device, computer readable storage medium and computing equipment
CN109819167B (en) Image processing method and device and mobile terminal
WO2020129959A1 (en) Computer program, server device, terminal device, and display method
US20230023653A1 (en) Computer program, server, terminal, and method
US11769016B2 (en) Generating responses to user interaction data based on user interaction-styles
JP2024063117A (en) Computer program, server device, terminal device, and method
JP7204984B1 (en) program, method, information processing device
US20240071377A1 (en) Method and device for presenting a cgr environment based on audio data and lyric data
CN112149599B (en) Expression tracking method and device, storage medium and electronic equipment
US11301615B2 (en) Information processing device using recognition difficulty score and information processing method
JP7339420B1 (en) program, method, information processing device
JP7194371B1 (en) program, method, information processing device
JP2022033220A (en) Computer program, server device, terminal device, and method
CN111091807B (en) Speech synthesis method, device, computer equipment and storage medium
US20240078732A1 (en) Avatar facial expressions based on semantical context
US20240078731A1 (en) Avatar representation and audio generation
CN116959452A (en) Visual adjustment method, device, equipment, medium and product for synthesized audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221220

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20221220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230509

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230824

R150 Certificate of patent or registration of utility model

Ref document number: 7339420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150