CN111837401A

CN111837401A - 信息处理设备、信息处理设备和程序

Info

Publication number: CN111837401A
Application number: CN201980018039.7A
Authority: CN
Inventors: 山岸靖明
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-15
Filing date: 2019-03-01
Publication date: 2020-10-27
Anticipated expiration: 2039-03-01
Also published as: EP3767964A1; US20200396516A1; KR20200128530A; WO2019176590A1; JPWO2019176590A1; US20230276105A1; KR102659489B1; EP3767964A4; JP7237927B2; CN111837401B; US11689776B2

Abstract

该信息处理装置设置有：AV解码器41，其获取并再现包括能够使用用于处理来自用户的语音请求的服务的服务对象的视频数据；以及应用程序执行环境43，其将用于向用户教导该服务对象的附加图像添加到再现的视频。附加图像具有对于每个服务对象唯一的视觉特征，使得该服务对象由服务中的语音识别唯一地确定。

Description

信息处理设备、信息处理设备和程序

技术领域

本技术涉及执行用于接收并再现包括视频的运动图像内容的信息处理的信息处理设备、信息处理设备和程序，并且具体地，涉及适合于例如运动图像内容与用于信息处理设备的用户的基于语音的信息服务一起工作的情况的信息处理设备、信息处理方法和程序。

背景技术

语音人工智能(AI)助理服务最近已经流行。这些服务是这样的信息服务，其中，支持该服务的终端通过使用麦克风等通过由信息处理设备的用户发出的语音来拾取请求，识别该请求，分析数据，执行对应于用户的请求的服务，并且通过声音等向用户响应执行的结果(例如，参见专利文献1)。Amazon Echo(注册商标)的Alexa(注册商标)目前被称为基于云的语音AI助理服务。

引用列表

专利文献

专利文献1：日本专利申请公开第2015-022310号

发明内容

技术问题

本技术的发明人已经研究了一种机制，在该机制中，如上所述的语音AI助理服务被用作用于在再现包括视频的运动图像内容的环境中收集关于出现在视频中的人或产品的信息的手段。例如，在作为观看者的用户然后想要知道并且存在诸如出现在运动图像内容中的人的角色、与出现在其中的其他人的关系、以及进一步地扮演该人的演员的简档的各种事物的情况下，用户可以实时地从语音AI助理服务接收信息。

然而，如果语音AI助理服务实际上被用作用于在再现包括视频的运动图像内容的环境中收集关于出现在视频中的人或产品的信息的手段，则在利用语音AI助理服务的属性的同时使用语音AI助理服务的合适方式尚未充分建立，并且堆叠了待解决的问题。

在这一点上，本技术的目的在于提供一种能够在观看再现视频时利用语音AI助理服务的属性的同时使用语音AI助理服务的信息处理设备、信息处理设备和程序。

问题的解决方案

为了解决上述问题，根据本技术的信息处理设备包括：媒体再现单元，其获取并再现包括能够利用服务的服务对象的视频数据，该服务处理通过来自用户的语音提出的请求；以及控制器，其将用于向用户通知关于服务对象的附加图像添加到再现的视频。

附加图像可以包括对于每个服务对象唯一的视觉特征，使得服务对象在服务中通过语音识别被唯一地确定。

附加图像可以呈现在附接到服务对象的位置处。

控制器可以被配置为根据用户或用户的属性来限制添加了附加图像的服务对象。

控制器可以被配置为根据用户或用户的属性执行添加了附加图像的服务对象出现的时段的视频的跳过再现。

控制器可以被配置为根据用户或用户的属性以第一倍速再现添加了附加图像的服务对象出现的时段的视频，并且以比第一倍速快的第二速度再现服务对象未出现的时段的视频。

控制器可以被配置为获取用于生成附加信息的元数据，并且基于所获取的元数据添加附加信息。

控制器可以被配置为获取包括元数据的适应集(AdaptationSet)的MPD文件，分析MPD文件，获取视频数据和元数据中的每一个作为MPEG-DASH的媒体段(Media Segment)，并且彼此同步地呈现视频数据和基于元数据的附加图像。

控制器可以被配置为基于元数据的版本信息来确定时间上在前的元数据与时间上在后的元数据之间是否存在细节上的变化，并且在不存在细节上的变化的情况下，将基于时间上在前的元数据添加到视频中的附加图像作为基于时间上在后的元数据的附加图像添加到与时间上在后的元数据同步的视频。

另外，附加图像的视觉特征可以由关于服务对象的字符串、颜色、形状和图标中的任何一个提供。

根据本技术的另一实施方式的信息处理方法，包括以下步骤：获取并再现包括能够利用服务的服务对象的视频数据，该服务处理通过来自用户的语音提出的请求；并且将用于向用户通知关于服务对象的附加图像添加到再现的视频。

根据本技术的又一实施方式的程序使计算机起以下作用：当计算机再现包括能够利用服务的服务对象的视频数据时，将用于向用户通知关于服务对象的附加图像添加到再现的视频，该服务处理通过来自用户的语音提出的请求。

发明的有利效果

如上所述，根据本技术，当观看再现的视频时，可以在利用语音AI助理服务的属性的同时使用语音AI助理服务。

附图说明

[图1]图1是示出根据本技术的包括第一实施方式的信息处理设备4的信息处理***100的整体配置的框图。

[图2]图2是示出图1的信息处理***100的整体操作流程(部分1)的序列图。

[图3]图3是示出图1的信息处理***100的整体操作流程(部分2)的序列图。

[图4]图4是示出图1的信息处理***100的整体操作流程(部分3)的序列图。

[图5]图5是示出其上叠加了附加图像的视频的示例的示图。

[图6]图6是示出POI元数据的配置的框图。

[图7]图7是示出其上叠加了附加图像的视频的另一示例的示图。

[图8]图8是示出针对附加图像的呈现限制的示图。

[图9]图9是示出在图1的信息处理***100中包括针对附加图像的呈现限制的整体操作流程(部分3)的序列图。

[图10]图10是用于描述基于POI元数据的特技播放再现的示图。

[图11]图11是示出其中处理POI元数据的应用程序执行环境43的示例的示图。

[图12]图12是示出其中处理POI元数据的应用程序执行环境43的另一示例的示图。

[图13]图13是示出封装网页应用程序和POI元数据的多部分MIME格式的示例的示图。

[图14]图14是示出MP4文件格式的媒体段的配置的示图。

[图15]图15是示出MPEG-DASH的MPD的数据结构的示图。

[图16]图16是示出MPEG-DASH服务器15与信息处理设备4之间经由网络通信的交互的示图。

[图17]图17是示出针对MPEG-DASH运动图像内容的呈现控制流程的示图。

[图18]图18是示出添加了POI元数据的适应集的MPD的配置的示图。

[图19]图19是示出添加了POI元数据的适应集的MPD的更具体示例的示图。

[图20]图20是示出基于MPD的视频和附加图像的呈现流程的示图。

[图21]图21是示出在附加图像的呈现位置沿着服务对象的移动而移动的情况下的POI元数据的示图。

[图22]图22是用于描述跨POI元数据的多个样本时间的呈现更新控制的示图。

具体实施方式

在下文中，将描述根据本技术的实施方式。

<实施方式的信息处理设备的概述>

本实施方式的信息处理设备4包括：

AV解码器41，其获取并再现包括能够利用语音AI助理服务的服务对象的视频数据，该语音AI助理服务处理通过来自用户的语音提出的请求；以及

应用程序执行环境43，其将用于向用户通知关于服务对象的附加图像添加到再现的视频。

利用该配置，本实施方式的信息处理设备4发挥以下效果：允许一眼在再现的视频中确定用于语音AI助理服务的服务对象，并且消除当选择服务对象时引起的混乱。

<第一实施方式>

接下来，将详细描述包括第一实施方式的信息处理设备4的信息处理***100的配置和操作。

(***的整体配置)

图1是示出根据本技术的包括第一实施方式的信息处理设备4的信息处理***100的整体配置的框图。

如图所示，信息处理***100包括服务器组1、广播/网络分发***2、语音AI助理服务终端3和用户的信息处理设备4。

(关于服务器组1)

服务器组1包括运动图像内容服务器11、应用程序服务器12、POI元数据服务器13和语音AI助理服务程序服务器14。

运动图像内容服务器11累积诸如商业消息(CM)和节目的运动图像内容的数据。运动图像内容的数据可以是由诸如视频、音频和字幕的多种媒体数据配置的多媒体数据。本技术特别适用于视频数据，并且不关心是否存在诸如音频和字幕的其他媒体数据。

POI元数据服务器13经由广播/网络分发***2将对应于运动图像内容的POI元数据直接分发到信息处理设备4。可选地，至少运动图像内容的数据和POI元数据在运动图像内容服务器11中以预定的数据结构收集，并且然后被分发到信息处理设备4的情况下，POI元数据服务器13经由广播/网络分发***2将POI元数据供应给运动图像内容服务器11。稍后将描述POI元数据。

应用程序服务器12经由广播/网络分发***2将用于基于信息处理设备4中的POI元数据执行处理的应用程序直接分发到信息处理设备4。可选地，运动图像内容的数据、POI元数据和应用程序在运动图像内容服务器11中以预定的数据结构收集，并且然后被分发到信息处理设备4的情况下，应用程序服务器12经由广播/网络分发***2将该应用程序供应给运动图像内容服务器11。

语音AI助理服务程序服务器14经由广播/网络分发***2将语音AI助理服务程序供应给语音AI助理服务终端3。语音AI助理服务程序是被配置为响应于由作为运动图像内容的观看者的用户U提供的针对诸如出现在运动图像内容中的特定人或产品的服务对象的服务请求而生成服务执行结果的程序。

广播/网络分发***2是经由广播或网络通信将运动图像内容的数据，收集运动图像内容的数据和POI元数据的数据结构，或收集运动图像内容的数据、POI元数据和应用程序的数据结构分发到信息处理设备4的***。另外，广播/网络分发***2还用于运动图像内容服务器11、应用程序服务器12与POI元数据服务器13之间的数据传送，以及语音AI助理服务程序服务器14与语音AI助理服务终端3之间的进一步的数据传送。

(关于信息处理设备4)

信息处理设备4包括中央处理单元(CPU)、诸如随机存取存储器(RAM)的主存储器、诸如硬盘驱动器(HDD)和固态驱动器(SSD)的存储装置、用户界面、诸如天线和广播调谐器的广播接收单元以及诸如网络接口的通信接口作为硬件元件。信息处理设备4可以具体地是用户可穿戴的信息终端，诸如个人计算机、智能电话、平板终端、电视、游戏装置和头戴式显示器(HMD)。

信息处理设备4包括AV解码器41、POI元数据处理模块42、应用程序执行环境43和渲染器44作为通过上述硬件元件和软件元件实现的功能元件。

信息处理设备4包括显示器45和扬声器46作为用户界面。此外，信息处理设备4可以包括用户确定模块47作为功能元件。

AV解码器41对经由广播/网络分发***2从运动图像内容服务器11获取的运动图像内容的多媒体数据(视频数据、音频数据等)进行解码。

POI元数据处理模块42将经由广播/网络分发***2从运动图像内容服务器11或POI元数据服务器13获取的POI元数据供应给应用程序执行环境43。

“POI元数据”是用于将添加的图像添加到在信息处理设备4中再现的视频的元数据，该添加的图像向信息处理设备4的用户U通知关于在该视频中分配了语音AI助理服务的特定服务对象。POI是受关注的点的缩写。“特定服务对象”是指出现在视频中的人或产品，语音AI助理服务可以针对该人或产品响应来自用户U的服务请求。

应用程序执行环境43是使用CPU和主存储器执行本地应用程序或网页应用程序的环境。应用程序执行环境43基于由POI元数据处理模块42提供的POI元数据来生成将被添加到视频中的服务对象的添加的图像。“添加的图像”例如被生成为“谈话气球”，使得与视频中的服务对象的关系例如易于理解。然而，本技术不限于以上内容，并且可以使用与视频中的服务对象的关系易于理解的任何图像。

渲染器44从由AV解码器41解码的视频数据生成将被输出到显示器45的显示信号，并且将由AV解码器41解码的音频数据输出到扬声器46。另外，在从应用程序执行环境43供应添加的图像的情况下，渲染器44在节目的视频上合成该添加的图像。

显示器45将视频呈现给用户U。扬声器46将音频呈现给用户U。

(关于语音AI助理服务终端3)

语音AI助理服务终端3是将语音助理服务提供给信息处理设备4的用户U的终端。更具体地，语音AI助理服务终端3是能够接收由用户U通过语音提供的针对视频中的任选服务对象的服务请求，执行该服务，并且通过使用声音等将服务的执行结果返回给用户U的设备。这里，使用例如问题形式的词语来提供通过来自用户U的语音提出的服务请求，并且通过例如响应形式的合成语音等将服务的执行结果返回给用户U。

语音AI助理服务终端3包括用于助理服务的麦克风31、语音识别模块32、用于语音AI助理服务的扬声器33、语音生成模块34和语音AI助理服务程序执行环境35。

用于助理服务的麦克风31捕获通过语音从信息处理设备4的用户U提供的服务请求。

语音识别模块32识别由用于助理服务的麦克风31捕获的服务请求的语音，并且将请求数据传递给语音AI助理服务程序执行环境35。

语音AI助理服务程序执行环境35是执行从语音AI助理服务程序服务器14获取的语音AI助理服务程序的环境。语音AI助理服务程序执行环境35针对从语音识别模块32供应的请求数据生成服务的执行结果的数据，并且将该数据供应给语音生成模块34。

语音生成模块34将从语音AI助理服务程序执行环境35供应的服务的执行结果的数据转换为合成语音。

用于助理服务的扬声器33将从语音生成模块34供应的合成语音呈现给信息处理设备4的用户U。

(信息处理***的整体操作流程(部分1))

图2是示出本实施方式中的信息处理***100的整体操作流程(部分1)的序列图。

假设从不同的服务器(运动图像内容服务器11、应用程序服务器12和POI元数据服务器13)分别分发运动图像内容的数据、应用程序和POI元数据。

首先，该应用程序经由广播/网络分发***2从应用程序服务器12被分发到信息处理设备4(步骤S101)。此外，运动图像内容的数据经由广播/网络分发***2从运动图像内容服务器11被分发到信息处理设备4(步骤S102)。在信息处理设备4中，在AV解码器41中对所接收的运动图像内容的数据进行解码，并且经由渲染器44将所得的视频数据和音频数据分别供应给显示器45和扬声器46(步骤S103)。

另外，从应用程序服务器12分发到信息处理设备4的应用程序被安装在应用程序执行环境43中，并且执行该应用程序(步骤S104)。

接下来，对应于运动图像内容的POI元数据经由广播/网络分发***2从POI元数据服务器13被分发到信息处理设备4(步骤S105)。在信息处理设备4中，POI元数据由POI元数据处理模块42供应给应用程序执行环境43。应用程序执行环境43基于POI元数据生成用于向用户U通知关于视频中的服务对象的附加图像，并且将附加图像供应给渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将其显示在显示器45上(步骤S106)。

然后，用户U通过语音将针对在显示器45上显示的视频中呈现附加图像的服务对象的服务请求提供给语音AI助理服务终端3，并且使用语音AI助理服务(步骤S107)。

(信息处理***的整体操作流程(部分2))

图3是示出本实施方式中的信息处理***100的整体操作流程(部分2)的序列图。

在上述操作流程(部分1)中，运动图像内容的数据和POI元数据从不同的服务器(运动图像内容服务器11和POI元数据服务器13)分布到信息处理设备4，并且因此在信息处理设备4中不能确保运动图像内容的数据与POI元数据之间的同步。

在这一点上，在图3所示的操作流程(部分2)中，首先，POI元数据经由广播/网络分发***2从POI元数据服务器13供应给运动图像内容服务器11(步骤S201)。随后，POI元数据和运动图像内容的数据在运动图像内容服务器11中以预定的数据结构收集，并且经由广播/网络分发***2被分发到信息处理设备4(步骤S203)。

在信息处理设备4中，从所接收的数据结构中提取运动图像内容的数据，在AV解码器41中对所提取的运动图像内容的数据进行解码，并且经由渲染器44将所得的视频数据和音频数据分别供应给显示器45和扬声器46(步骤S204)。

另外，在信息处理设备4中，POI元数据由POI元数据处理模块42从所接收的数据结构中提取(步骤S205)，并且被供应给应用程序执行环境43。应用程序执行环境43基于POI元数据生成用于向用户U通知关于视频中的服务对象的附加图像，并且将该附加图像供应给渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将其显示在显示器45上(步骤S207)。

然后，用户U通过语音将针对在显示器45上显示的视频中呈现附加图像的服务对象的服务请求提供给语音AI助理服务终端3，并且使用语音AI助理服务(步骤S208)。

以这种方式，POI元数据和运动图像内容的数据以预定的数据结构收集并且从运动图像内容服务器11分发到信息处理设备4，这确保了运动图像内容的数据和POI元数据可以在信息处理设备4中彼此同步地处理。这允许将正确的附加图像不断地添加到节目的视频中的服务对象，并且允许维持稳定的语音AI助理服务。

注意，在操作流程(部分2)中，应用程序经由广播/网络分发***2从应用程序服务器12分发到信息处理设备4(步骤S202)，将其安装在应用程序执行环境43中，并且执行该应用程序(步骤S206)，这与上述操作流程(部分1)相同。

(信息处理***的整体操作流程(部分3))

图4是示出本实施方式中的信息处理***100的整体操作流程(部分3)的序列图。

在该操作流程中，假设运动图像内容的数据、POI元数据和处理它们的应用程序以预定的数据结构收集，并且从运动图像内容服务器11分发到信息处理设备4。

首先，POI元数据从POI元数据服务器13供应给运动图像内容服务器11(步骤S301)。此外，应用程序从应用程序服务器12供应给运动图像内容服务器11(步骤S302)。POI元数据的供应和应用程序的供应的顺序可以颠倒。随后，运动图像内容的数据、POI元数据和应用程序在运动图像内容服务器11中以预定的数据结构收集并且经由广播/网络分发***2分发到信息处理设备4(步骤S303)。

在信息处理设备4中，从所接收的数据结构中提取运动图像内容的数据，在AV解码器41中对所提取的运动图像内容的数据进行解码，并且经由渲染器44将所得的视频数据和音频数据分别供应给显示器45和扬声器46(步骤S304)。

另外，在信息处理设备4中，从所接收的数据结构中提取应用程序(步骤S305)，将其安装在应用程序执行环境43中，并且执行该应用程序(步骤S306)。

此外，在信息处理设备4中，POI元数据由POI元数据处理模块42从所接收的数据结构中提取(步骤S307)，并且被供应给应用程序执行环境43。应用程序执行环境43基于POI元数据生成用于向用户U通知关于视频中的服务对象的附加图像，并且将该附加图像供应给渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将其显示在显示器45上(步骤S308)。

然后，用户U通过语音将针对在显示器45上显示的视频中呈现附加图像的服务对象的服务请求提供给语音AI助理服务终端3，并且使用语音AI助理服务(步骤S309)。

(关于附加图像)

接下来，将描述基于POI元数据生成的附加图像。

图5是示出其上叠加了附加图像的视频的示例的示图。

如图所示，附加图像可以呈现为例如分别附接到用于视频中的语音AI助理服务的服务对象J1、J2和J3的谈话气球51、52和53。

对于相应服务对象J1、J2和J3唯一的视觉特征被提供给谈话气球51、52和53，使得在用户U通过语音向语音AI助理服务终端3通知服务对象J1、J2和J3的情况下，通过语音AI助理服务终端3中的语音识别唯一地确定服务对象J1、J2和J3。这允许用户U通过使用表达任选服务对象的特征的语音将针对该服务对象的服务请求提供给语音AI助理服务终端3。

例如，在图5的示例中，作为用作服务对象J1、J2和J3的人的名字的字符串的“比尔(Bill)”、“弗雷德(Fred)”和“露西(Lucy)”被显示为谈话气球51、52和53中的视觉特征。因此，用户U可以使用任选服务对象的名称(例如，“弗雷德的最新消息是什么？”或者“比尔几岁了？)通过语音将针对服务对象的服务请求提供给语音AI助理服务终端3。同时，语音AI助理服务终端3可以从由语音识别模块32识别的名称来识别服务对象，并且可以根据语音AI助理服务程序执行环境35的语音AI助理服务程序针对所识别的服务对象执行语音AI助理服务。

注意，除了出现在视频中的人的名字的字符串之外，可以利用图标、谈话气球的颜色、谈话气球的设计等来不同地修改对于设置在谈话气球51、52和53中的相应服务对象唯一的视觉特征。

如上所述，在本实施方式中，针对运动图像内容的视频中的语音AI助理服务的服务对象生成用于向用户U通知关于服务对象的附加图像，并且然后将其叠加在要呈现的运动图像内容的视频上，并且因此用户U可以从视频中唯一地确定服务对象，并且针对任选服务对象执行服务请求。因此，消除了用户U将针对服务对象之外的对象的服务请求提供给语音AI助理服务终端3的无用操作，并且可以优选地使用语音AI助理服务。

另外，对于相应服务对象唯一的视觉特征被提供给附加图像，使得可以由语音AI助理服务终端3中的语音识别唯一地识别服务对象，并且因此用户U可以通过使用语音将针对该服务对象的服务请求提供给语音AI助理服务终端3，同时使用表达任选服务对象的特征的语音。因此，用户U不犹豫如何表达服务对象来向语音AI助理服务发出通知，在语音AI助理服务终端3中可靠地识别服务对象，并且因此实现优选的语音AI助理服务。

接下来，将描述POI元数据的结构。

(POI元数据的结构)

图6是示出POI元数据的配置的框图。

POI元数据包括POI图标图像、POI呈现颜色、POI呈现位置、POI呈现文本和POI过滤信息。

POI图标图像是在附加图像上呈现图标作为服务对象单元的视觉特征的情况下使用的图标文件的实质或图标文件的参考URL(统一资源定位符)。下面将示出POI图标图像的XML(可扩展标记语言)表示。

<POIIcon iconPng＝‘true’>…(base64编码的png文件)…</POIIcon>

<POIIcon iconPngURL＝‘true’>http://…(图标png文件的URL)…</POIIcon>

在使用颜色的视觉特征被提供给附加图像的情况下使用POI呈现颜色。针对POI呈现颜色的信息，例如，使用CSS(级联样式表)等的颜色代码。下面将示出POI呈现颜色的XML表示。

<POIColor>…(CSS color code)…</POIColor>

POI呈现位置包括诸如其中呈现附加图像的目标内容的URI(统一资源标识符)、基于POI元数据执行呈现附加图像的处理的应用程序的URI、附加图像的呈现时间和附加图像的呈现位置的信息。下面将示出POI呈现位置的XML表示。

POI呈现文本是在使用字符的视觉特征被提供给附加图像的情况下呈现在附加图像上的字符串。下面将示出POI呈现文本的XML表示。

<POIText>…(呈现字符串)…</POIText>

在执行对应于附加图像的用户或用户属性的呈现限制的情况下使用POI过滤信息。POI过滤信息是用于识别要向其呈现附加图像的用户U的信息，并且包括用户人口统计类别的识别名称和任选的用户识别信息。

用户人口统计类别是指用户基于用户的属性(诸如性别、年龄、居住区域、职业、学术背景和家庭结构)被分类成的类别，并且由用户人口统计类别的识别名称唯一地识别。下面将示出用户人口统计类别的识别名称的XML表示。

<POITargetUser demographicClass＝‘true’>…(用户人口统计类别识别名称)…</POITargetUser>

任选的用户识别信息例如是诸如广播电台相关服务的帐户名称的用户识别信息。下面将示出任选的用户识别信息的XML表示。

<POITargetUser privateAccount＝‘true’>https://…(用于识别服务的用户帐户的URL等)…</POITargetUser>

注意，仅需要定义POI图标图像、POI呈现颜色和POI呈现文本中的至少任何一个。在引入稍后将描述的附加信息的呈现限制的情况下定义POI过滤信息。

(关于针对附加图像的呈现限制)

在上述实施方式中，附加图像在运动图像内容的视频中呈现在用于语音AI助理服务的服务对象上。然而，例如，如图7所示，在一个场景中存在多个服务对象J1至J5的情况下，呈现对应于那些服务对象J1至J5的数量的附加图像51至55。那些附加图像51至55隐藏了节目的视频的一部分，并且节目的视频的视觉效果易于劣化。

在这一点上，例如，如图8所示，根据用户U限制呈现附加图像的服务对象是有效的。例如，在用户U感兴趣的服务对象上呈现附加图像，并且在其他服务对象上不呈现附加图像。这样可以将以下情况抑制到最小：节目的视频的一部分被许多附加图像隐藏，并且整个视频被附加图像变得混乱。该功能将被称为“针对附加图像的呈现限制”。

图9是示出包括针对附加图像的呈现限制的操作流程的序列图。

这里，步骤S401至S405的操作与图2所示的操作流程(部分1)中的步骤S101至S105的操作相同，并且因此将省略其描述。

为了执行针对附加图像的呈现限制，信息处理设备4的用户确定模块47确定用户U的用户人口统计类别或用户识别信息(步骤S406)。将所确定的用户U的用户人口统计类别或用户识别信息通知给应用程序执行环境43(步骤S407)。

用户人口统计类别是用户基于用户的各种属性(诸如性别、年龄、居住区域、职业、学术背景和家庭结构)被分类成的类别。例如，如果可以在统计上说20多岁的男性高度倾向于对最近流行的新女演员感兴趣，则20多岁的男性的用户人口统计类别与节目中新女演员扮演的人(服务对象)的POI元数据中定义的用户人口统计类别相匹配。

由用户确定模块47确定用户U的用户人口统计类别或用户识别信息的方法包括以下步骤。

1.用户确定模块47从由相机捕获的用户U的面部图像的分析结果来估计用户U的属性(诸如性别和年龄组)，并且从所估计的属性来确定用户人口统计类别。

2.用户确定模块47基于通过从语音AI助理服务终端3通过声音向用户U给出的问题而获得的信息来估计用户U的属性，并且确定用户人口统计类别。

3.在使用信息处理设备4的多个用户被限制的情况下，预先与每个用户的用户名称相关联地登记用户人口统计类别的识别名称或用户识别信息，并且因此用户确定模块47可以确定通过诸如生物认证和卡认证的认证确认的用户人口统计类别的识别名称或对应于该用户名称的用户识别信息。

接下来，信息处理设备4的应用程序执行环境43从运动图像内容的视频的相应场景的所有POI元数据中提取其中由用户确定模块47确定的用户人口统计类别的识别名称或用户识别信息被定义为POI过滤信息的POI元数据，基于所提取的POI元数据生成向用户U通知关于视频中的服务对象的附加图像，并且将该附加图像供应给渲染器44。因此，获得在节目的视频上叠加了附加图像的合成图像，并且将其显示在显示器45上(步骤S408)。

然后，用户U通过语音将针对在显示器45上显示的视频中呈现附加图像的服务对象的服务请求提供给语音AI助理服务终端3，并且使用语音AI助理服务(步骤S409)。

注意，这里假设图2所示的信息处理***的整体操作流程(部分1)已经描述了针对附加图像的呈现限制，但是针对整体操作流程(部分2)和整体操作流程(部分3)同样成立。

接下来，返回参考图8，将继续描述。这里，假设视频中的服务对象J1的用户人口统计类别的识别名称是“类别1”，其他服务对象J2至J5的用户人口统计类别的识别名称不是“类别1”。同时，假设用户确定模块47将用户U的用户人口统计类别确定为“类别1”。在这种情况下，仅针对服务对象J1呈现附加图像51，并且因此可以将以下情况抑制到最小：节目的视频的一部分被添加到用户U不感兴趣的服务对象J2至J5的附加图像52至55隐藏，并且整个视频变得混乱。

注意，在以用户识别信息作为过滤条件来执行针对附加图像的呈现限制的情况下，可以仅向特定用户U呈现针对特定服务对象的附加图像。

(基于用户U的观看历史的用户人口统计类别的设置)

注意，在以上描述中，从诸如性别、年龄、居住区域、职业、学术背景和家庭属性的属性来确定用户U的用户人口统计类别，但是用户确定模块47可以基于用户U的观看历史来计算用户U的偏好条件，并且基于偏好条件或者考虑偏好条件来确定用户人口统计类别。

(基于POI元数据的特技播放再现)

接下来，将描述基于POI元数据的特技播放再现。

基于POI元数据的特技播放再现是以第一倍速再现其中根据基于用户U的用户人口统计类别或用户识别信息提取的POI元数据呈现附加图像的场景，并且以比第一倍速快的第二倍速再现其他场景。

这里，第一倍速例如是1倍速度(相等速度)或比1倍速度慢的速度。第二倍速例如是比1倍速度快的快进再现。

接下来，将更具体地描述基于POI元数据的特技播放再现的操作。

首先，用户确定模块47确定用户U的用户人口统计类别或用户识别信息，并且将其供应给应用程序执行环境43。

应用程序执行环境43从节目的视频的相应场景的所有POI元数据中选择其中由用户确定模块47确定的用户人口统计类别的识别名称或用户识别信息被定义为POI过滤信息的POI元数据，并且应用程序执行环境43基于所提取的POI元数据执行特技播放再现。

图10是具体示出基于POI元数据的特技播放再现的示图。

这里，假设作为服务对象的“比尔”和“萨姆(Sam)”的用户人口统计类别是“类别1”，并且由用户确定模块47确定的用户U的用户人口统计类别是“类别1”。

具有“类别1”的用户人口统计类别的“比尔”在Ta-Ta’时段期间出现在视频中，并且因此应用程序执行环境43在Ta-Ta’时段期间以第一倍速再现包括附加图像的视频。随后，直到时间Tc，在视频中不出现具有“类别1”的用户人口统计类别的服务对象，并且因此应用程序执行环境43以比第一倍速快的第二倍速执行再现。注意，在第二倍速的再现中不呈现附加图像，并且因此可以减少应用程序执行环境43上的负载。具有“类别1”的用户人口统计类别的“萨姆”在Tc-Tc’时段期间出现在视频中，并且因此应用程序执行环境43在Tc-Tc’时段期间以第一倍速再现包括附加图像的视频。在时间Tc’之后，在视频中不出现具有“类别1”的用户人口统计类别的服务对象，并且因此以第二倍速执行再现。

以这种方式，以第一倍速再现其中根据基于用户U的用户人口统计类别或用户识别信息提取的POI元数据呈现附加图像的场景，并且以比第一倍速快的第二倍速再现其他场景，从而实现聚焦于对用户U有用(感兴趣)的场景的特技播放再现。

另外，可以仅根据基于用户U的用户人口统计类别或用户识别信息提取的POI元数据呈现附加图像的场景执行跳过再现。

到目前为止，已经描述了根据本实施方式的信息处理***基于POI元数据的附加图像的呈现、针对附加图像的呈现限制、特技播放再现等的功能。

(关于应用程序执行环境43)

图11是示出其中处理POI元数据的应用程序执行环境43的示例的示图。

该示例示出了其中处理POI元数据的应用程序是在信息处理设备4的本地操作***48上操作的本地应用程序49的情况。

图12是示出其中处理POI元数据的应用程序执行环境43的另一示例的示图。

该示例示出了其中处理POI元数据的应用程序是在网页浏览器56上操作的网页应用程序57的情况。在这种情况下，POI元数据和网页应用程序57被同时或基本上同时地分发到信息处理设备4。

(POI元数据传送方法)

为了将网页应用程序和POI元数据同时分发给信息处理设备4，采用通过使用多部分MIME(多用途互联网MALL扩展)格式来封装网页应用程序和POI元数据的方法。图13是示出封装网页应用程序和POI元数据的多部分MIME格式的示例的示图。在多部分MIME格式中，POI元数据文件61和网页应用程序文件62被分别存储在由边界部分分开的相应部分中。

注意，在处理POI元数据的应用程序是与作为应用程序执行环境的操作***一起操作的本地应用程序，或者应用程序与POI元数据分开分发的情况下，可以仅以多部分MIME格式存储POI元数据文件，并且然后分发POI元数据文件。

接下来，将描述以与诸如视频数据和音频数据的媒体数据的轨道类似的方式以MP4文件格式存储POI元数据的轨道并且传送MP4文件格式的方法。

图14是示出MP4文件格式的媒体段的配置的示图。

如图所示，媒体段包括多个电影片段(Movie Fragents)，并且每个电影片段由moof盒和mdat盒配置。例如，在mdat盒中，媒体数据按照时间单位(诸如帧)被划分为多个样本盒，并且被存储为可随机访问。在moof盒中，存储关于呈现的元数据，诸如用于生成呈现mdat盒的每个样本盒的媒体数据的定时的信息。

在本实施方式中，准备在mdat盒的每个样本盒中存储视频数据的媒体段、在mdat盒的每个样本盒中存储音频数据的媒体段、在mdat盒的每个样本盒中存储POI元数据的媒体段。

注意，在本实施方式中，MP4文件被假设为MPEG-DASH(HTTP上的动态自适应流)的媒体段。

(关于MPEG-DASH)

在MPEG-DASH中，为一条运动图像内容准备具有不同编码速率和屏幕大小的多个数据组，以防止流再现被中断。考虑到信息处理设备4的屏幕大小、网络带宽的状态等来动态地选择多个数据组。因此，在MPEG-DASH中，如上所述，在被称为MPD(媒体呈现描述)的元数据中描述为一条运动图像内容准备什么数据组的编码速率和屏幕大小。

接下来，将详细描述MPD的数据结构。

MPD是关于存储在服务器中的运动图像内容的配置的信息，其以XML(可扩展标记语言)格式的层次结构描述。信息处理设备4从MPD文件服务器获取对应于目标运动图像内容的MPD文件并且分析该MPD文件，并且因此从服务器获取呈现目标运动图像内容所需的媒体段。

图15是示出MPD的数据结构的示图。

MPD包括MPD下面的一个时段、用于该时段下面的每个媒体类型的适应集、以及进一步适应集下面的多个表示。

MPD的层次(即顶部层次)包括诸如MPD的起点、标题、流类型(按需/实时分发)和长度的信息，作为关于一条运动图像内容的管理信息。

时段是通过将一条运动图像内容除以诸如帧的时间而获得的单位。为时段定义开始时间和结束时间。该时段由多个适应集配置。

适应集包括关于每个时段的运动图像内容的媒体类型(视频、音频、字幕、POI元数据)中的每一个媒体类型的数据的编解码器信息，诸如语言等的信息。适应集在适应集下面包括具有不同编码速率和图像大小的每条数据的表示。

该表示包括在网页服务器中累积的信息，诸如具有不同编码速率、图像大小等的片段的编码速率、图像大小、位置(URL)等。

图16是示出MPEG-DASH服务器15与信息处理设备4之间经由网络通信的交互的示图。

MPD文件和运动图像内容的各种类型的媒体的媒体段被存储在MPEG-DASH服务器15中。

信息处理设备4的CPU请求MPEG-DASH服务器15发送MPD文件(步骤S501)。MPEG-DASH服务器15响应于该请求将MPD文件发送到信息处理设备4(步骤S502)。信息处理设备4的CPU分析所接收的MPD文件，并且确认准备了什么媒体段的编码速率和图像大小(步骤S503)。信息处理设备4的CPU请求MPEG-DASH服务器15考虑MPD文件的分析结果、显示器的屏幕大小、传送路径的网络流量的状态等来发送具有优选图像大小和编码速率的媒体段(步骤S504)。MPEG-DASH服务器15响应于该请求将媒体段发送到信息处理设备4(步骤S505)。

接下来，为了描述MPD与媒体段之间的关系，将返回参考图14描述媒体段中的moof盒和mdat盒的数据结构。

如上所述，媒体段包括多个电影片段，并且每个电影片段由moof盒和mdat盒配置。例如，在mdat盒中，媒体数据按照时间单位(诸如帧)被划分为多个样本盒，并且被存储为可随机访问。在moof盒中，存储关于呈现的元数据，诸如用于生成呈现mdat盒的每个样本盒的媒体数据的定时的信息。

作为用于生成相应样本(1)、(2)、(3)、…的媒体数据的呈现开始时间呈现时间(PresentationTime)(1)、(2)、(3)、…的信息，基础媒体解码时间(BaseMediaCodeTime)被存储在moof盒的预定下级盒(moof/traf盒)中，并且样本计数(SampleCount)(1)、(2)、(3)、…，样本持续时间(SampleDuration)(1)、(2)、(3)、…和组成时间偏移(CompositionTimeOffset)(1)、(2)、(3)、…作为与相应的样本(1)、(2)、(3)、…相关联的信息被进一步存储在另一个盒(trun盒)中。基础媒体解码时间是从时段的起点到电影片段的起点的相对时间的信息。样本计数(1)、(2)、(3)、…是样本的数量，样本持续时间(1)、(2)、(3)、…是样本(1)、(2)、(3)、…的长度，并且组成时间偏移(1)、(2)、(3)、…是调整时间。

接下来，将描述计算样本的呈现开始时间PresentationTime的方法。

假设第N个样本的呈现开始时间是呈现时间(N)，则通过基础媒体解码时间+(样本(1)、…、至第N-1个样本(1)、(N-1)样本持续时间(1)、…和(N-1)的和)+(第N个样本的组成时间偏移)(N)来计算呈现时间(N)。

(针对MPEG-DASH运动图像内容的典型呈现控制)

图17是示出针对MPEG-DASH运动图像内容的呈现控制流程的示图。

在图中，水平轴被假设为实时(UTC时间)的轴。信息处理设备4的CPU参考MPD文件中定义的MPD的起点，基于作为相对于MPD的起点的相对时间的针对时段定义的开始时间，实时地生成第一时段的起点。

随后，信息处理设备4的CPU基于基础媒体解码时间实时地生成电影片段的起点，并且进一步通过使用样本计数、样本持续时间和组成时间偏移生成时段的第一样本(1)的呈现开始时间(呈现时间(1))，并且从该时间开始呈现第一样本(1)。随后，信息处理设备4的CPU类似地生成下一个样本(2)的呈现开始时间(呈现时间(2))，并且将此时要呈现的目标从样本(1)切换到样本(2)。在下文中，类似地执行样本之间的呈现的切换。以这种方式，每个样本(1)、(2)、…的视频被呈现而不被时间中断。

在本实施方式中，对应于POI元数据的适应集被添加到MPD文件中，并且因此可以通过按原样遵循MPEG-DASH运动图像内容的呈现控制方法来执行针对附加图像的呈现控制。这允许与诸如MPEG-DASH运动图像内容的视频或音频的每个介质同步地呈现附加图像。

例如，如图18所示，在与从T1到T2的时段(T1至T2)中的视频实时同步地呈现附加图像的情况下，POI元数据的适应集(T1至T2)被添加到MPD的时段(T1至T2)的较低级别层次。此外，在与从T2到T3的时段(T2至T3)中的视频实时同步地呈现附加图像的情况下，POI元数据的适应集(T2至T3)被添加到MPD的时段(T2至T3)的较低级别层次。

图19是示出了添加了POI元数据的适应集的MPD的更具体示例的示图。

在MPD的顶部层次中，描述了@avAIlabilityStartTime＝T0。这指示运动图像内容时间的起点是T0。在其较低级别层次中，存储了两个时段。在两个时段中，第一时段被定义为在T0的起点之后的0秒开始，并且第二时段被定义为在T0的起点之后的100秒开始。

在该示例中，视频、音频和POI元数据的适应集作为第二时段的适应集存在。在视频的适应集的较低级别层次中，存在指示不同编码速率(256Kbps/512Kbps)的两个表示。在每个表示的较低级别层次中，存在片段模板(SegmentTemplate)，其中，描述了指示视频的媒体段的位置的UPL的生成方法、获取周期等。

这里，“@timescale＝“1000””和“@duration＝“1000””是指，如果将时间尺度为1/1000秒中的1000分钟的值(即1秒)设置为片段时间长度，则可以在该片段时间长度的周期中获取视频。“@Media＝“$Number％6d$.m4s””指示生成示出每个样本的视频的位置的URL的最低值的方法，并且具体地是指具有从1增加的六位数字的值的整数。例如，通过将MPD的每个元件中描述的“BaseURL”所示的值连接到路径格式并且将由“@Media＝“$Number％6d$.m4s””生成的具有六位数字的值添加到URL的末端来生成样本的URL。换句话说，视频的第一样本的URL被创建为“HTTP://a.com/p2/video/512/000001.m4s”。“@initialization＝“IS.mp4””是用于视频的第一媒体段的初始化片段(Initialization Segment)的URL的值。通过将MPD的每个元件中描述的“BaseURL”所示的值连接到路径格式并且将“IS.mp4”添加到URL的末端，也生成初始化片段的URL。例如，初始化片段的URL被创建为“HTTP://a.com/p2/video/512/IS.mp4”。

在POI元数据的适应集的较低级别层次中存在表示，并且在其进一步较低级别层次中存在段模板，其中，描述了指示POI元数据的媒体段的位置的URL的生成方法、获取周期等。指示POI元数据的媒体段的位置的URL的生成方法可以与指示视频的媒体段的位置的URL的生成方法相同。另外，指示用于POI元数据的初始化片段的位置的URL的生成方法也可以与指示用于视频的初始化片段的位置的URL的生成方法相同。POI元数据的初始化片段包括用于识别作为样本存储在媒体段中的POI元数据的信息。具体地，如果初始化片段的moov(MovieBox)/trak(TrackBox)/mdia(MediaBox)/hdlr(HandlerBox)的handler_type字段的值是“meta”，则可以识别作为样本存储在媒体段中的POI元数据。

信息处理设备4的CPU可以基于如上所述生成的URL以样本为单位获取运动图像内容的视频、音频和POI元数据中的每一个。

图20是示出基于MPD的视频和附加图像的呈现流程的示图。

呈现视频的样本(1)、(2)和(3)中的每一个样本的处理如上所述。

这里，信息处理设备4的CPU基于POI元数据(1)执行从视频的第一样本(1)的实时的呈现开始时间(PresentationTime)(1)到下一样本(2)的实时的呈现开始时间(PresentationTime)(2)的附加图像的呈现处理。随后，信息处理设备4的CPU基于POI元数据(2)执行从样本(2)的实时的呈现开始时间(PresentationTime)(2)到下一样本(3)的实时的呈现开始时间(PresentationTime)(3)的附加图像的呈现处理。此外，信息处理设备4的CPU基于POI元数据(3)执行从样本(2)的实时的呈现开始时间(PresentationTime)(3)到下一样本(3)的实时的呈现开始时间(PresentationTime)(4)的附加图像的呈现处理。

如上所述，在本实施方式中，用于POI元数据的适应集被添加到MPD文件中，并且因此可以使用与用于诸如视频和音频的其他类型的媒体的呈现控制相同的机制来执行基于POI元数据的附加图像的呈现控制，并且还可以与诸如视频和音频的其他类型的媒体同步地正确地呈现附加图像。

(附加图像的呈现位置的移动)

图21是示出在视频中的服务对象随着时间移动并且附加图像的呈现位置也沿着服务对象的移动而移动的情况下的POI元数据的示图。

这里，T1是基于POI元数据(1)的附加图像的呈现开始时间，T2是基于POI元数据(2)的附加图像的呈现开始时间，并且T3是基于POI元数据(3)的附加图像的呈现开始时间。T1至T2是基于POI元数据(1)的附加图像的呈现时段，并且在该时段期间，附加图像被呈现在POI元数据(1)中由POIPosition元素的值(x＝x1，y＝y1)指示的位置处。T2至T3是基于POI元数据(2)的附加图像的呈现时段，并且在该时段期间，附加图像被呈现在POI元数据(2)中由POIPosition元素的值(x＝x2，y＝y2)指示的位置处。T3至T4是基于POI元数据(3)的附加图像的呈现时段，并且在该时段期间，附加图像被呈现在POI元数据(3)中由POIPosition元素的值(x＝x3，y＝y3)指示的位置处。

以这种方式，根据移动服务对象的位置来确定每个样本的POI元数据中的POIPosition元素的值，并且因此可以与服务对象的移动同步地正确地移动附加图像的呈现位置。

(跨POI元数据的多个样本时间的呈现更新控制)

在上文中已经假设在将每个样本的视频与POI元数据一对一地相关联的同时执行针对附加图像的呈现控制，但是一条POI元数据可以被应用于多个连续样本的视频。在这种情况下，如图22所示，版本信息(Version)被添加到在存储POI元数据的文件63、64和65的包66、67和68中描述的POI元数据的标识符(metadataURI)的值。在细节没有从紧接在前的POI元数据改变的情况下，假设版本信息具有与在存储紧接在前的POI元数据的包中描述的版本信息相同的值，并且在细节从紧接在前的POI元数据改变的情况下，版本信息被设置为递增值。

因此，在视频的样本之间的切换中，在切换之前和之后改变每条版本信息的值的情况下，应用程序执行环境43的应用程序基于POI元数据来执行用于附加图像的呈现的计算，并且在不改变每条版本信息的值的情况下，继续呈现附加图像，而不基于POI元数据执行用于附加图像的呈现的新计算。这允许减少用于附加图像的呈现的计算负载。

例如，如图22所示，添加到对应于样本(1)的视频的POI元数据(1)的标识符(metadataURI)的版本信息的值为“1”，添加到对应于样本(2)的视频的POI元数据(2)的标识符(metadataURI)的版本信息的值为“2”，并且添加到对应于样本(3)的视频的POI元数据(3)的标识符(metadataURI)的版本信息的值为“2”。在这种情况下，在第二样本(2)的视频与第三样本(3)的视频之间切换时，添加到第二样本(2)的视频的附加图像按原样继续呈现在第三样本(3)的视频上，而无需基于对应于第三样本(3)的视频的POI元数据(3)执行针对附加图像的呈现的计算。

注意，本技术不限于上述实施方式，并且当然可以在不脱离本发明的要旨的情况下进行各种修改。

本技术可以具有以下配置。

(1)一种信息处理设备，包括：

媒体再现单元，获取并再现包括能够利用服务的服务对象的视频数据，所述服务处理通过来自用户的语音提出的请求；以及

控制器，将用于向用户通知关于服务对象的附加图像添加到再现的视频。

(2)根据(1)的信息处理设备，其中，

附加图像包括对于每个服务对象唯一的视觉特征，使得服务对象在服务中通过语音识别被唯一地确定。

(3)根据(1)和(2)中任一项的信息处理设备，其中，

附加图像被呈现在附接到服务对象的位置处。

(4)根据(1)至(3)中任一项的信息处理设备，其中，

控制器被配置为根据用户或用户的属性来限制添加了附加图像的服务对象。

(5)根据(1)至(4)中任一项的信息处理设备，其中，

控制器被配置为根据用户或用户的属性执行添加了附加图像的服务对象出现的时段的视频的跳过再现。

(6)根据(1)至(4)中任一项的信息处理设备，其中，

控制器被配置为

根据用户或用户的属性以第一倍速再现添加了附加图像的服务对象出现的时段的视频，并且

以比第一倍速快的第二速度再现服务对象未出现的时段的视频。

(7)根据(1)至(6)中任一项的信息处理设备，其中，

控制器被配置为

获取用于生成附加信息的元数据，并且

基于所获取的元数据添加附加信息。

(8)根据(1)至(7)中任一项的信息处理设备，其中，

控制器被配置为

获取用于处理元数据的网页应用程序，并且

根据所获取的网页应用程序处理元数据。

(9)根据(1)至(8)中任一项的信息处理设备，其中，

控制器被配置为

获取包括元数据的适应集的MPD文件，

分析MPD文件，

获取视频数据和元数据中的每一个作为MPEG-DASH的媒体段，并且

彼此同步地呈现视频数据和基于元数据的附加图像。

(10)根据(1)至(9)中任一项的信息处理设备，其中，

控制器被配置为

基于元数据的版本信息来确定时间上在前的元数据与时间上在后的元数据之间是否存在细节上的变化，并且

在不存在细节上的变化的情况下，将基于时间上在前的元数据添加到视频中的附加图像作为基于时间上在后的元数据的附加图像添加到与时间上在后的元数据同步的视频。

(11)根据(1)至(10)中任一项的信息处理设备，其中，

附加图像的视觉特征由关于服务对象的字符串、颜色、形状和图标中的任何一个提供。

(12)一种信息处理方法，包括：

获取并再现包括能够利用服务的服务对象的视频数据，所述服务处理通过来自用户的语音提出的请求；并且

将用于向用户通知关于服务对象的附加图像添加到再现的视频。

(13)根据(12)的信息处理方法，其中，

(14)根据(12)或(13)的信息处理方法，其中，

附加图像被呈现在附接到服务对象的位置处。

(15)根据(12)至(14)中任一项的信息处理方法，其中，

根据用户或用户的属性来限制添加了附加图像的服务对象。

(16)根据(12)至(15)中任一项的信息处理方法，其中，

根据用户或用户的属性执行添加了附加图像的服务对象出现的时段的视频的跳过再现。

(17)根据(12)至(15)中任一项的信息处理方法，其中，

(18)根据(12)至(17)中任一项的信息处理方法，其中，

获取用于生成附加信息的元数据，并且

基于所获取的元数据添加附加信息。

(19)根据(12)至(18)中任一项的信息处理方法，其中，

获取用于处理元数据的网页应用程序，并且

根据所获取的网页应用程序处理元数据。

(20)根据(12)至(19)中任一项的信息处理方法，其中，

获取包括元数据的适应集的MPD文件，

分析MPD文件，

彼此同步地呈现视频数据和基于元数据的附加图像。

(21)根据(12)至(20)中任一项的信息处理方法，其中，

(22)根据(12)至(21)中任一项的信息处理方法，其中，

(23)一种使计算机起作用的程序，当计算机再现包括能够利用服务的服务对象的视频数据时，将用于向用户通知关于服务对象的附加图像添加到再现的视频，该服务处理通过来自用户的语音提出的请求。

(24)根据(23)的程序，其中，

(25)根据(23)或(24)的程序，其中，

附加图像被呈现在附接到服务对象的位置处。

(26)根据(23)至(25)中任一项的程序，其中，

控制器根据用户或用户的属性来限制添加了附加图像的服务对象。

(27)根据(23)至(26)中任一项的程序，其中，

控制器根据用户或用户的属性执行添加了附加图像的服务对象出现的时段的视频的跳过再现。

(28)根据(23)至(26)中任一项的程序，其中，

控制器

(29)根据(23)至(28)中任一项的程序，其中，

控制器

获取用于生成附加信息的元数据，并且

基于所获取的元数据添加附加信息。

(30)根据(23)至(28)中任一项的程序，其中，

控制器

(31)根据(23)至(29)中任一项的程序，其中，

参考标记列表

4 信息处理设备

11 运动图像内容服务器

12 应用程序服务器

13 POI元数据服务器

41 AV解码器

42 POI元数据处理模块

43 应用程序执行环境

44 渲染器

45 显示器

46 扬声器

47 用户确定模块。

Claims

1.一种信息处理设备，包括：

控制器，将用于向所述用户通知关于所述服务对象的附加图像添加到再现的视频。

2.根据权利要求1所述的信息处理设备，其中，

所述附加图像包括对于每个服务对象唯一的视觉特征，使得所述服务对象在所述服务中通过语音识别被唯一地确定。

3.根据权利要求2所述的信息处理设备，其中，

所述附加图像被呈现在附接到所述服务对象的位置处。

4.根据权利要求3所述的信息处理设备，其中，

所述控制器被配置为根据所述用户或所述用户的属性来限制添加了所述附加图像的所述服务对象。

5.根据权利要求4所述的信息处理设备，其中，

所述控制器被配置为根据所述用户或所述用户的属性执行添加了所述附加图像的所述服务对象出现的时段的视频的跳过再现。

6.根据权利要求5所述的信息处理设备，其中，

所述控制器被配置为

根据所述用户或所述用户的属性以第一倍速再现添加了所述附加图像的所述服务对象出现的所述时段的视频，并且

以比所述第一倍速快的第二速度再现所述服务对象未出现的时段的视频。

7.根据权利要求6所述的信息处理设备，其中，

所述控制器被配置为

获取用于生成所述附加信息的元数据，并且

基于所获取的元数据添加所述附加信息。

8.根据权利要求7所述的信息处理设备，其中，

所述控制器被配置为

获取用于处理所述元数据的网页应用程序，并且

根据所获取的网页应用程序处理所述元数据。

9.根据权利要求8所述的信息处理设备，其中，

所述控制器被配置为

获取包括所述元数据的适应集的MPD文件，

分析所述MPD文件，

获取所述视频数据和所述元数据中的每一个作为MPEG-DASH的媒体段，并且

彼此同步地呈现所述视频数据和基于所述元数据的所述附加图像。

10.根据权利要求9所述的信息处理设备，其中，

所述控制器被配置为基于所述元数据的版本信息来确定时间上在前的元数据与时间上在后的元数据之间是否存在细节上的变化，并且

在不存在细节上的变化的情况下，将基于所述时间上在前的元数据添加到所述视频中的所述附加图像作为基于所述时间上在后的元数据的附加图像添加到与所述时间上在后的元数据同步的视频。

11.根据权利要求2所述的信息处理设备，其中，

所述附加图像的视觉特征由关于所述服务对象的字符串、颜色、形状和图标中的任何一个提供。

12.一种信息处理方法，包括：

将用于向所述用户通知关于所述服务对象的附加图像添加到再现的视频。

13.一种使计算机起以下作用的程序：