CN113852863A

CN113852863A - 动态媒体项递送

Info

Publication number: CN113852863A
Application number: CN202110624286.0A
Authority: CN
Inventors: B·H·博伊塞尔; S·S·赵; J·佩伦; D·H·Y·黄
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2020-06-26
Filing date: 2021-06-04
Publication date: 2021-12-28
Also published as: US20210405743A1

Abstract

本公开涉及动态媒体项递送。在一个具体实施中，提供了一种用于动态媒体项递送的方法。该方法包括：经由显示设备呈现与第一元数据相关联的第一组媒体项；在呈现该第一组媒体项的同时，获得由一个或多个输入设备采集的用户反应信息；经由定性反馈分类器基于该用户反应信息获得对该第一组媒体项的估计的用户反应状态；基于所估计的用户反应状态和该第一元数据来获得一个或多个目标元数据特征；获得与对应于所述一个或多个目标元数据特征的第二元数据相关联的第二组媒体项；以及经由该显示设备呈现与该第二元数据相关联的第二组媒体项。

Description

动态媒体项递送

技术领域

本公开整体涉及媒体项递送，并且具体地涉及用于动态和/或偶发性媒体项递送的***、设备和方法。

背景技术

首先，在一些情况下，用户基于地理位置、面部识别、事件等在已标记的图像或媒体内容的分组之间手动选择。例如，用户选择夏威夷度假相簿，然后手动选择包括特定家庭成员的不同相簿或照片。该过程与多个用户输入相关联，这增加了相关联的输入设备上的磨损并且还消耗了功率。其次，在一些情况下，用户简单地选择与一组预先分类的图像相关联的相簿或事件。然而，这种用于查看媒体内容的工作流缺乏偶发性。

附图说明

因此，本公开可被本领域的普通技术人员理解，更详细的描述可参考一些例示性具体实施的方面，其中一些具体实施在附图中示出。

图1是根据一些具体实施的示例性操作架构的框图。

图2是根据一些具体实施的示例性控制器的框图。

图3是根据一些具体实施的示例性电子设备的框图。

图4是根据一些具体实施的示例性训练架构的框图。

图5是根据一些具体实施的示例性机器学习(ML)***的框图。

图6是根据一些具体实施的示例性输入数据处理架构的框图。

图7A是根据一些具体实施的示例性动态媒体项递送架构的框图。

图7B示出了根据一些具体实施的用于媒体项储存库的示例性数据结构。

图8A是根据一些具体实施的另一示例性动态媒体项递送架构的框图。

图8B示出了根据一些具体实施的用于用户反应历史数据存储库的示例性数据结构。

图9是根据一些具体实施的动态媒体项递送的方法的流程图表示。

图10是根据一些具体实施的另一示例性动态媒体项递送架构的框图。

图11A至图11C示出了根据一些具体实施的偶发性媒体项递送场景的一系列实例。

图12是根据一些具体实施的偶发性媒体项递送的方法的流程图表示。

根据通常的做法，附图中示出的各种特征部可能未按比例绘制。因此，为了清楚起见，可以任意地扩展或减小各种特征部的尺寸。另外，一些附图可能未描绘给定的***、方法或设备的所有部件。最后，在整个说明书和附图中，类似的附图标号可用于表示类似的特征部。

发明内容

本文所公开的各种具体实施包括用于动态媒体项递送的设备、***和方法。根据一些具体实施，所述方法在包括非暂态存储器和一个或多个处理器的计算***处执行，其中所述计算***通信地耦接到显示设备和一个或多个输入设备。该方法包括：经由显示设备呈现与第一元数据相关联的第一组媒体项；在呈现所述第一组媒体项的同时，获得由所述一个或多个输入设备采集的用户反应信息；经由定性反馈分类器基于该用户反应信息获得对该第一组媒体项的估计的用户反应状态；基于所估计的用户反应状态和该第一元数据来获得一个或多个目标元数据特征；获得与对应于所述一个或多个目标元数据特征的第二元数据相关联的第二组媒体项；以及经由该显示设备呈现与该第二元数据相关联的第二组媒体项。

本文所公开的各种具体实施包括用于偶发性媒体项递送的设备、***和方法。根据一些具体实施，所述方法在包括非暂态存储器和一个或多个处理器的计算***处执行，其中所述计算***通信地耦接到显示设备和一个或多个输入设备。所述方法包括：经由所述显示设备呈现包括第一多个虚拟对象的动画，其中所述第一多个虚拟对象对应于第一多个媒体项的虚拟表示，并且其中所述第一多个媒体项伪随机地选自媒体项储存库；经由所述一个或多个输入设备检测指示对与所述第一多个媒体项中的特定媒体项相关联的相应虚拟对象感兴趣的用户输入；并且，响应于检测到所述用户输入：获得与所述特定媒体项相关联的目标元数据特征；从所述媒体项储存库中选择与对应于所述目标元数据特征的相应元数据特征相关联的第二多个媒体项；以及经由所述显示设备呈现包括第二多个虚拟对象的动画，其中所述第二多个虚拟对象与来自媒体项储存库的所述第二多个媒体项的虚拟表示对应。

根据一些具体实施，一种电子设备包括一个或多个显示器、一个或多个处理器、非暂态存储器和一个或多个程序；该一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且该一个或多个程序包括用于执行或使得执行本文所述方法中的任一种的指令。根据一些具体实施，一种非暂态计算机可读存储介质中存储有指令，这些指令在由设备的一个或多个处理器执行时使该设备执行或使执行本文所述方法中的任一种。根据一些具体实施，一种设备包括：一个或多个显示器、一个或多个处理器、非暂态存储器以及用于执行或使执行本文所述方法中的任一种的装置。

根据一些具体实施，一种计算***包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备进行通信的接口、以及一个或多个程序；一个或多个程序被存储在非暂态存储器中并且被配置为由一个或多个处理器执行，并且一个或多个程序包括用于执行或导致执行本文所述的方法中的任一种方法的操作的指令。根据一些实施方案，一种非暂态计算机可读存储介质具有存储在其中的指令，这些指令当由具有与显示设备和一个或多个输入设备通信的接口的计算***的一个或多个处理器执行时，使得所述计算***执行或使得执行本文所述的方法中的任一种方法的操作。根据一些具体实施，一种计算***包括一个或多个处理器、非暂态存储器、用于与显示设备和一个或多个输入设备通信的接口、以及用于执行或导致执行本文所述的方法中的任一种方法的操作的装置。

具体实施方式

描述了许多细节以便提供对附图中所示的示例具体实施的透彻理解。然而，附图仅示出了本公开的一些示例方面，因此不应被视为限制。本领域的普通技术人员将理解，其他有效方面和/或变体不包括本文所述的所有具体细节。此外，没有详尽地描述众所周知的***、方法、部件、设备和电路，以免模糊本文所述的示例性具体实施的更多相关方面。

物理环境是指人们在没有电子设备帮助的情况下能够感测和/或交互的物理世界。物理环境可包括物理特征，诸如物理表面或物理对象。例如，物理环境对应于包括物理树木、物理建筑物和物理人的物理公园。人们能够诸如通过视觉、触觉、听觉、味觉和嗅觉来直接感测物理环境和/或与物理环境交互。相反，扩展现实(XR)环境是指人们经由电子设备感测和/或交互的完全或部分模拟的环境。例如，XR环境可包括增强现实(AR)内容、混合现实(MR)内容、虚拟现实(VR)内容等。在XR***的情况下，跟踪人的物理运动的一个子集或其表示，并且作为响应，以符合至少一个物理定律的方式调节在XR***中模拟的一个或多个虚拟对象的一个或多个特征。例如，XR***可以检测头部移动，并且作为响应，以与此类视图和声音在物理环境中变化的方式类似的方式调节呈现给人的图形内容和声场。又如，XR***可以检测呈现XR环境的电子设备(例如，移动电话、平板电脑、膝上型电脑等)的移动，并且作为响应，以类似于此类视图和声音在物理环境中将如何改变的方式调节呈现给人的图形内容和声场。在一些情况下(例如，出于可达性原因)，XR***可响应于物理运动的表示(例如，声音命令)来调节XR环境中图形内容的特征。

有许多不同类型的电子***使人能够感测和/或与各种XR环境交互。示例包括头戴式***、基于投影的***、平视显示器(HUD)、集成有显示能力的车辆挡风玻璃、集成有显示能力的窗户、被形成为设计用于放置在人的眼睛上的透镜的显示器(例如，类似于隐形眼镜)、耳机/听筒、扬声器阵列、输入***(例如，具有或不具有触觉反馈的可穿戴或手持式控制器)、智能电话、平板电脑、以及台式/膝上型计算机。头戴式***可具有集成不透明显示器和一个或多个扬声器。另选地，头戴式***可被配置为接受外部不透明显示器(例如，智能电话)。头戴式***可结合用于捕获物理环境的图像或视频的一个或多个成像传感器、和/或用于捕获物理环境的音频的一个或多个麦克风。头戴式***可具有透明或半透明显示器，而不是不透明显示器。透明或半透明显示器可以具有媒介，代表图像的光通过该媒介被引导到人的眼睛。显示器可以利用数字光投影、OLED、LED、uLED、硅基液晶、激光扫描光源或这些技术的任意组合。媒介可以是光学波导、全息图媒介、光学组合器、光学反射器、或它们的任意组合。在一些具体实施中，透明或半透明显示器可被配置为选择性地变得不透明。基于投影的***可以采用将图形图像投影到人的视网膜上的视网膜投影技术。投影***也可以被配置为将虚拟对象投影到物理环境中，例如作为全息图或在物理表面上。

图1是根据一些具体实施的示例性操作架构100的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，操作架构100包括可选的控制器110和电子设备120(例如，平板电脑、移动电话、膝上型电脑、近眼***、可穿戴计算设备等)。

在一些具体实施中，控制器110被配置为管理和协调用户150和零个或多个其他用户的XR体验(在本文中有时也称为“XR环境”或“虚拟环境”或“图形环境”)。在一些具体实施中，控制器110包括软件、固件和/或硬件的合适组合。下文参考图2更详细地描述控制器110。在一些具体实施中，控制器110是相对于与用户150相关联的物理环境处于本地或远程位置的计算设备。例如，控制器110是位于该物理环境内的本地服务器。又如，控制器110是位于该物理环境之外的远程服务器(例如，云服务器、中央服务器等)。在一些具体实施中，控制器110经由一个或多个有线或无线通信信道144(例如，蓝牙、IEEE 802.11x、IEEE802.16x、IEEE 802.3x等)与电子设备120通信地耦接。在一些具体实施中，控制器110的功能由电子设备120提供。这样，在一些具体实施中，控制器110的部件集成到电子设备120中。

在一些具体实施中，电子设备120被配置为向用户150呈现音频和/或视频内容。在一些具体实施中，电子设备120被配置为向用户150呈现用户界面(UI)和/或XR环境128。在一些具体实施中，电子设备120包括软件、固件和/或硬件的合适组合。下文参考图3更详细地描述电子设备120。

根据一些具体实施，在用户150物理地存在于物理环境内时，电子设备120向用户150呈现XR体验。这样，在一些具体实施中，用户150将电子设备120拿在他/她的一只或两只手中。在一些具体实施中，在呈现XR体验时，电子设备120被配置为在显示器122上呈现XR内容并实现物理环境的视频透传。例如，包括XR内容的XR环境128是立体的或三维的(3D)。

在一个示例中，XR内容对应于显示器锁定的内容，使得尽管电子设备120进行了平移和/或旋转运动，XR内容仍保持显示在显示器122上的相同位置处。又如，XR内容对应于世界锁定的内容，使得当电子设备120检测到平移和/或旋转运动时，XR内容仍保持显示在其原始位置处。因此，在该示例中，如果电子设备120的视场(FOV)不包括原始位置，则XR环境128将不包括XR内容。

在一些具体实施中，显示器122对应于能够实现物理环境的光学透传的加成显示器。例如，显示器122对应于透明透镜，并且电子设备120对应于用户150佩戴的一副眼镜。因此，在一些具体实施中，电子设备120通过将XR内容投影到加成显示器上而呈现用户界面，其继而从用户150的角度叠置在物理环境上。在一些具体实施中，电子设备120通过将XR内容显示在加成显示器上而呈现用户界面，其继而从用户150的角度叠置在物理环境105上。

在一些具体实施中，用户150穿戴电子设备120，诸如近眼***。因此，电子设备120包括被提供以显示XR内容的一个或多个显示器(例如，单个显示器或每只眼睛一个显示器)。例如，电子设备120包围用户150的FOV。在此类具体实施中，电子设备120通过在一个或多个显示器上显示对应于XR环境128的数据或者通过将对应于XR环境128的数据投影到用户150的视网膜上来呈现XR环境128。

在一些具体实施中，电子设备120包括显示XR环境128的集成显示器(例如，内置显示器)。在一些具体实施中，电子设备120包括可头戴式壳体。在各种具体实施中，头戴式壳体包括附接区，具有显示器的另一设备可附接到该附接区。例如，在一些具体实施中，电子设备120可附接到可头戴式壳体。在各种具体实施中，可头戴式壳体被成形为形成用于接收包括显示器的另一设备(例如，电子设备120)的接收器。例如，在一些具体实施中，电子设备120滑动/卡扣到可头戴式壳体中或以其他方式附接到该可头戴式壳体。在一些具体实施中，附接到可头戴式壳体的设备的显示器呈现(例如，显示)XR环境128。在一些具体实施中，将电子设备120替换成被配置为呈现XR内容的XR室、壳体或房间，在其中用户150不穿戴电子设备120。

在一些具体实施中，控制器110和/或电子设备120使得用户150的XR表示基于来自电子设备120和/或物理环境内的可选的远程输入设备的移动信息(例如，身体姿态数据、眼睛跟踪数据、手/肢体跟踪数据等)在XR环境128内移动。在一些具体实施中，可选的远程输入设备对应于物理环境内的固定或可移动的感官装备(例如，图像传感器、深度传感器、红外(IR)传感器、事件相机、麦克风等)。在一些具体实施中，每个远程输入设备被配置为在用户150物理地在物理环境内时收集/捕获输入数据并且将输入数据提供给控制器110和/或电子设备120。在一些具体实施中，远程输入设备包括麦克风，并且输入数据包括与用户150相关联的音频数据(例如，语音样本)。在一些具体实施中，远程输入设备包括图像传感器(例如，相机)，并且输入数据包括用户150的图像。在一些具体实施中，输入数据表征用户150在不同时间的身体姿态。在一些具体实施中，输入数据表征用户150在不同时间的头部姿态。在一些具体实施中，输入数据表征在不同时间与用户150的手相关联的手跟踪信息。在一些具体实施中，输入数据表征用户150的身体部分(诸如他/她的手)的速度和/或加速度。在一些具体实施中，输入数据指示用户150的关节位置和/或关节取向。在一些具体实施中，远程输入设备包括反馈设备，诸如扬声器、灯等。

图2是根据一些具体实施的控制器110的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，控制器110包括一个或多个处理单元202(例如，微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、图形处理单元(GPU)、中央处理单元(CPU)、处理内核等)、一个或多个输入/输出(I/O)设备206、一个或多个通信接口208(例如，通用串行总线(USB)、IEEE 802.3x、IEEE 802.11x、IEEE 802.16x、全球移动通信***(GSM)、码分多址(CDMA)、时分多址(TDMA)、全球定位***(GPS)、红外(IR)、蓝牙、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口210、存储器220以及用于互连这些部件和各种其他部件的一条或多条通信总线204。

在一些具体实施中，该一条或多条通信总线204包括互连***部件和控制***部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备206包括键盘、鼠标、触控板、触摸屏、操纵杆、一个或多个麦克风、一个或多个扬声器、一个或多个图像传感器、一个或多个显示器等中的至少一种。

存储器220包括高速随机存取存储器，诸如动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、双倍数据速率随机存取存储器(DDR RAM)或者其他随机存取固态存储器设备。在一些具体实施中，存储器220包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器220任选地包括远离所述一个或多个处理单元202定位的一个或多个存储设备。存储器220包括非暂态计算机可读存储介质。在一些具体实施中，存储器220或存储器220的非暂态计算机可读存储介质存储下文参照图2所述的下述程序、模块和数据结构或者它们的子集。

操作***230包括用于处理各种基础***服务和用于执行硬件相关任务的过程。

在一些具体实施中，数据获取器242被配置为从控制器110的I/O设备206、电子设备120、和可选的远程输入设备中的至少一者获取数据(例如，捕获的物理环境的图像帧、呈现数据、输入数据、用户交互数据、相机姿态跟踪信息、眼睛跟踪信息、头部/身体姿态跟踪信息、手部/肢体跟踪信息、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器242包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，映射器和***引擎244被配置为标测物理环境以及跟踪至少电子设备120相对于物理环境的方位/位置。为此，在各种具体实施中，映射器和***引擎244包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输器246被配置为至少向电子设备120传输数据(例如，呈现数据诸如与XR环境相关联的经渲染的图像帧、位置数据等)。为此，在各种具体实施中，数据传输器246包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，训练架构400被配置为训练定性反馈分类器420的各个部分。下文参考图4更详细地描述训练架构400。为此，在各种具体实施中，训练架构400包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。在一些具体实施中，训练架构400包括训练引擎410、定性反馈分类器420和比较引擎430。

在一些具体实施中，训练引擎410包括训练数据集412和调整引擎414。根据一些具体实施，训练数据集412包括输入表征向量和已知的用户反应状态配对。例如，相应的输入表征向量与用户反应信息相关联，该用户反应信息包括众包的、特定于用户的和/或***生成的固有用户反馈测量值。在该示例中，固有用户反馈测量值可包括身体姿态特征、语音特征、瞳孔扩张值、心率值、呼吸率值、血糖值、血氧饱和度值等中的至少一者。继续该示例，已知的用户反应状态对应于相应输入表征向量的可能的用户反应(例如，情绪状态、心情等)。

因此，在训练期间，训练引擎410将相应的输入表征向量从训练数据集412馈送到定性反馈分类器420。在一些具体实施中，定性反馈分类器420被配置为处理来自训练数据集412的相应输入表征向量并输出估计的用户反应状态。在一些具体实施中，定性反馈分类器420对应于查找引擎或机器学习(ML)***，诸如神经网络、卷积神经网络(CNN)、递归神经网络(RNN)、深度神经网络(DNN)、状态向量机(SVM)、随机森林算法等。

在一些具体实施中，比较引擎430被配置为将所估计的用户反应状态与已知的用户反应状态进行比较并输出误差增量值。为此，在各种具体实施中，比较引擎430包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，调整引擎414被配置为确定误差增量值是否满足阈值收敛值。如果误差增量值不满足阈值收敛值，则调整引擎414被配置为调整定性反馈分类器420的一个或多个操作参数(例如，滤波器权重等)。如果误差增量值满足阈值收敛值，则定性反馈分类器420被认为是经过训练的并且准备好用于运行时使用。此外，如果误差增量值满足阈值收敛值，则调整引擎414被配置为放弃调整定性反馈分类器420的一个或多个操作参数。为此，在各种具体实施中，调整引擎414包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

虽然训练引擎410、定性反馈分类器420和比较引擎430被示出为驻留在单个设备(例如，控制器110)上，但应当理解，在其他具体实施中，训练引擎410、定性反馈分类器420和比较引擎430的任何组合可位于单独的计算设备中。

在一些具体实施中，动态媒体项递送架构700/800/1000被配置为基于对媒体项的用户反应和/或用户兴趣指示以动态方式递送该媒体项。下文分别参考图7A、图8A和图10更详细地描述示例性动态媒体项递送架构700、800和1000。为此，在各种具体实施中，动态媒体项递送架构700/800/1000包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。在一些具体实施中，动态媒体项递送架构700/800/1000包括内容管理器710、媒体项储存库750、姿态确定器722、渲染器724、合成器726、音频/视频(A/V)呈现器728、输入数据摄取器615、经训练的定性反馈分类器652、可选的用户兴趣确定器654和可选的用户反应历史数据存储库810。

在一些具体实施中，如图7A和图8A所示，内容管理器710被配置为基于初始用户选择等从媒体项储存库750中选择第一组媒体项。在一些具体实施中，如图7A和图8A所示，内容管理器710还被配置为基于对第一组媒体项的所估计用户反应状态和/或用户兴趣指示从媒体项储存库750中选择第二组媒体项。

在一些具体实施中，如图10所示，内容管理器710被配置为从媒体项储存库750中随机或伪随机地选择第一组媒体项。在一些具体实施中，如图10所示，内容管理器710还被配置为基于用户兴趣指示从媒体项储存库750中选择第二组媒体项。

下文参考图7A、图8A和图10更详细地描述内容管理器710和媒体项选择过程。为此，在各种具体实施中，内容管理器710包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，媒体项储存库750包括多个媒体项诸如音频/视频(A/V)内容和/或多个虚拟/XR对象、项目、场景等。在一些具体实施中，媒体项储存库750相对于控制器110本地和/或远程地存储。在一些具体实施中，媒体项储存库750由用户150预先填充或手动创作。下文参考图7B更详细地描述媒体项储存库750。

在一些具体实施中，姿态确定器722被配置为确定电子设备120和/或用户150相对于A/V内容和/或虚拟/XR内容的当前相机姿态。为此，在各种具体实施中，姿态确定器722包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，渲染器724被配置为根据相对于来自媒体项储存库750的A/V内容和/或虚拟/XR内容的当前相机姿态对其进行渲染。为此，在各种具体实施中，渲染器724包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，合成器726被配置为将所渲染的A/V内容和/或虚拟/XR内容与物理环境的图像合成以产生渲染的图像帧。在一些具体实施中，合成器726获取(例如，接收、检索、确定/生成或以其他方式访问)与场景(例如，图1中的物理环境)相关联的深度信息(例如，点云、网格等)以保持所渲染的A/V内容和/或虚拟/XR内容与物理环境中的物理对象之间的z轴次序。为此，在各种具体实施中，合成器726包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，A/V呈现器728被配置为呈现所渲染的图像帧或使其呈现(例如，经由一个或多个显示器312等)。为此，在各种具体实施中，A/V呈现器728包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，输入数据摄取器615被配置为摄取用户输入数据，诸如由一个或多个输入设备采集的用户反应信息和/或一个或多个肯定的用户反馈输入。根据一些具体实施，一个或多个输入设备包括眼睛跟踪引擎、身体姿态跟踪引擎、心率监测仪、呼吸率监测仪、血糖监测仪、血氧饱和度监测仪、麦克风、图像传感器、身体姿态跟踪引擎、头部姿态跟踪引擎、肢体/手部跟踪引擎等中的至少一者。下文参考图6更详细地描述输入数据摄取器615。为此，在各种具体实施中，输入数据摄取器615包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，经训练的定性反馈分类器652被配置为基于用户反应信息(或从其导出的用户表征向量)生成对第一组媒体项或第二组媒体项的估计的用户反应状态(或与之相关的置信度分数)。下文参考图6、图7A和图8A更详细地描述了经训练的定性反馈分类器652。为此，在各种具体实施中，经训练的定性反馈分类器652包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，用户兴趣确定器654被配置为基于一个或多个肯定的用户反馈输入来生成用户兴趣指示。下文参考图6、图7A、图8A和图10更详细地描述用户兴趣确定器654。为此，在各种具体实施中，用户兴趣确定器654包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，可选的用户反应历史数据存储库810包括呈现给用户150的过去媒体项的历史记录，这些历史记录与用户150相对于那些过去媒体项的估计的用户反应状态相关联。在一些具体实施中，可选的用户反应历史数据存储库810相对于控制器110本地和/或远程地存储。在一些具体实施中，通过监测用户150的反应，随时间推移填充可选的用户反应历史数据存储库810。例如，在检测到来自用户150的选择加入输入之后，填充用户反应历史数据存储库810。下文参考图8A和图8B更详细地描述了可选的用户反应历史数据存储库810。

虽然数据采集器242、映射器和***引擎244、数据传输器246、训练架构400和动态媒体项递送架构700/800/1000被示出为驻留在单个设备(例如，控制器110)上，但应当理解，在其他具体实施中，数据采集器242、映射器和***引擎244、数据传输器246、训练架构400和动态媒体项递送架构700/800/1000的任何组合可以位于单独的计算设备中。

在一些具体实施中，控制器110的功能和/或部件与下文在图3中所示的电子设备120组合或由其提供。此外，图2更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述的具体实施的结构示意图。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图2中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图3是根据一些具体实施的电子设备120(例如，移动电话、平板电脑、膝上型电脑、近眼***、可穿戴计算设备等)的示例的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。出于该目的，作为非限制性示例，在一些具体实施中，电子设备120包括一个或多个处理单元302(例如，微处理器、ASIC、FPGA、GPU、CPU、处理核心等)、一个或多个输入/输出(I/O)设备及传感器306、一个或多个通信接口308(例如，USB、IEEE802.3x、IEEE 802.11x、IEEE 802.16x、GSM、CDMA、TDMA、GPS、IR、BLUETOOTH、ZIGBEE和/或类似类型的接口)、一个或多个编程(例如，I/O)接口310、一个或多个显示器312、图像捕获设备370(一个或多个任选的面向内部和/或面向外部的图像传感器)、存储器320以及用于互连这些部件和各种其他部件的一条或多条通信总线304。

在一些具体实施中，一条或多条通信总线304包括互连和控制***部件之间的通信的电路。在一些具体实施中，一个或多个I/O设备及传感器306包括惯性测量单元(IMU)、加速度计、陀螺仪、磁力仪、温度计、一个或多个生理传感器(例如，血压监测仪、心率监测仪、血氧饱和度监测仪、血糖监测仪等)、一个或多个麦克风、一个或多个扬声器、触觉引擎、加热和/或冷却单元、皮肤剪切引擎、一个或多个深度传感器(例如，结构化光、飞行时间、LiDAR等)、定位和映射引擎、眼睛跟踪引擎、身体/头部姿态跟踪引擎、手部/肢体跟踪引擎、相机姿态跟踪引擎等中的至少一者。

在一些具体实施中，一个或多个显示器312被配置为向用户呈现XR环境。在一些具体实施中，一个或多个显示器312也被配置为向用户呈现平面视频内容(例如，与电视剧或电影相关联的二维或“平面”AVI、FLV、WMV、MOV、MP4等文件，或物理环境的实时视频透传)。在一些具体实施中，一个或多个显示器312对应于触摸屏显示器。在一些具体实施中，一个或多个显示器312对应于全息、数字光处理(DLP)、液晶显示器(LCD)、硅上液晶(LCoS)、有机发光场效应晶体管(OLET)、有机发光二极管(OLED)、表面传导电子发射器显示器(SED)、场发射显示器(FED)、量子点发光二极管(QD-LED)、微机电***(MEMS)和/或相似显示器类型。在一些具体实施中，一个或多个显示器312对应于衍射、反射、偏振、全息等波导显示器。例如，电子设备120包括单个显示器。又如，电子设备120包括针对用户的每只眼睛的显示器。在一些具体实施中，一个或多个显示器312能够呈现AR和VR内容。在一些具体实施中，一个或多个显示器312能够呈现AR或VR内容。

在一些具体实施中，图像捕获设备370对应于一个或多个RGB相机(例如，具有互补金属氧化物半导体(CMOS)图像传感器或电荷耦合器件(CCD)图像传感器)、IR图像传感器、基于事件的相机等。在一些具体实施中，图像捕获设备370包括透镜组件、光电二极管和前端架构。

存储器320包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM或其他随机存取固态存储器设备。在一些具体实施中，存储器320包括非易失性存储器，诸如一个或多个磁盘存储设备、光盘存储设备、闪存存储器设备或其他非易失性固态存储设备。存储器320任选地包括远离一个或多个处理单元302定位的一个或多个存储设备。存储器320包括非暂态计算机可读存储介质。在一些具体实施中，存储器320或存储器320的非暂态计算机可读存储介质存储下述程序、模块和数据结构或它们的子集，其中包括任选的操作***330和XR呈现引擎340。

操作***330包括用于处理各种基础***服务和用于执行硬件相关任务的过程。在一些具体实施中，呈现引擎340被配置为经由一个或多个显示器312向用户呈现媒体项和/或XR内容。出于该目的，在各种具体实施中，呈现引擎340包括数据获取器342、呈现器344、交互处理器346和数据传输器350。

在一些具体实施中，数据获取器342被配置为从电子设备120的I/O设备及传感器306、控制器110、和远程输入设备中的至少一者获取数据(例如，呈现数据，诸如与用户界面/XR环境相关联的经渲染的图像帧、输入数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息、传感器数据、位置数据等)。为此，在各种具体实施中，数据获取器342包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，呈现器344被配置为经由一个或多个显示器312呈现和更新媒体项和/或XR内容(例如，与用户界面/XR环境相关联的经渲染的图像帧)。为此，在各种具体实施中，呈现器344包括指令和/或用于这些指令的逻辑部件以及启发法和用于该启发法的元数据。

在一些具体实施中，交互处理器346被配置为检测与所呈现的媒体项和/或XR内容的用户交互。为此，在各种具体实施中，交互处理器346包括指令和/或用于指令的逻辑部件以及启发法和用于启发法的元数据。

在一些具体实施中，数据传输器350被配置为至少向控制器110传输数据(例如，呈现数据、位置数据、用户交互数据、头部跟踪信息、相机姿态跟踪信息、眼睛跟踪信息等)。为此，在各种具体实施中，数据传输器350包括指令和/或用于这些指令的逻辑以及启发法和用于该启发法的元数据。

尽管数据获取器342、呈现器344、交互处理器346和数据传输器350被图示成驻留在单个设备(例如，电子设备120)上，但应当理解，在其他具体实施中，数据获取器342、呈现器344、交互处理器346和数据传输器350的任何组合可位于分开的计算设备中。

此外，图3更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图3中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图4是根据一些具体实施的示例性训练架构400的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，训练架构400包括在计算***中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。

在一些具体实施中，训练架构400(例如，训练具体实施)包括训练引擎410、定性反馈分类器420和比较引擎430。在一些具体实施中，训练引擎210至少包括训练数据集412和调整单元414。在一些具体实施中，定性反馈分类器420至少包括机器学习(ML)***，诸如图5中的ML***500。为此，在一些具体实施中，定性反馈分类器420对应于神经网络、CNN、RNN、DNN、SVM、随机森林算法等。

在一些具体实施中，在训练模式中，训练架构400被配置为至少部分地基于训练数据集412训练定性反馈分类器420。如图4所示，训练数据集412包括输入表征向量和已知的用户反应状态配对。在图4中，输入表征向量442A对应于可能的已知用户反应状态444A，并且输入表征向量442N对应于可能的已知用户反应状态444N。本领域的普通技术人员将会理解，训练数据集412的结构和其中的部件在各种其他具体实施中可以不同。

根据一些具体实施，输入表征向量442A包括众包的、特定于用户的和/或***生成的固有用户反馈测量值。在该示例中，固有用户反馈测量值可包括身体姿态特征、语音特征、瞳孔扩张值、心率值、呼吸率值、血糖值、血氧饱和度值等中的至少一者。换句话讲，固有用户反馈测量结果包括传感器信息，诸如音频数据、生理数据、身体姿态数据、眼睛跟踪数据等。作为非限制性示例，与用户的对应于快乐状态的已知反应状态相关联的一组传感器信息(例如，固有用户反馈测量值)包括：指示慢速语音节奏的语音特征的音频数据、包括90次心跳/分钟(BPM)的心率的生理数据、3.0mm的瞳孔直径、用户手臂张开的身体姿态数据，和/或视线聚焦于特定对象的眼睛跟踪数据。作为另一个非限制性示例，与用户的对应于压力状态的已知状态相关联的一组传感器信息(例如，固有用户反馈测量值)包括：指示与断续的言语方式相关联的语音特征的音频数据、包括120BPM的心率跳动的生理数据、7.00mm的瞳孔扩张直径、用户的手臂交叉的身体姿态数据，和/或视线多变的眼睛跟踪数据。又如，与用户的对应于平静状态的已知状态相关联的一组传感器信息(例如，固有用户反馈测量值)包括：包括说出“我很放松”的文字记录的音频数据、指示慢速言语方式的音频数据，包括80BPM的心率的生理数据、4.0mm的瞳孔扩张直径、用户双臂在其头部后面交叠的身体姿态数据和/或视线放松的眼睛跟踪数据。

因此，在训练期间，训练引擎410将相应的输入表征向量413从训练数据集412馈送到定性反馈分类器420。在一些具体实施中，定性反馈分类器420处理来自训练数据集412的相应输入表征向量413并输出估计的用户反应状态421。

在一些具体实施中，比较引擎430将估计的用户反应状态421与来自与相应输入表征向量413相关联的训练数据集412的已知用户反应状态411进行比较，以便生成估计的用户反应状态421与已知用户反应状态411之间的误差增量值431。

在一些具体实施中，调整引擎414确定误差增量值431是否满足阈值收敛值。如果误差增量值431不满足阈值收敛值，则调整引擎414调整定性反馈分类器420的一个或多个操作参数433(例如，滤波器权重等)。如果误差增量值431满足阈值收敛值，则定性反馈分类器420被认为是经过训练的并且准备好用于运行时使用。此外，如果误差增量值431满足阈值收敛值，则调整引擎414放弃调整定性反馈分类器420的一个或多个操作参数433。在一些具体实施中，阈值收敛值对应于预定义值。在一些具体实施中，阈值收敛值对应于确定性值。

虽然训练引擎410、定性反馈分类器420和比较引擎430被示出为驻留在单个设备(例如，训练架构400)上，但应当理解，在其他具体实施中，训练引擎410、定性反馈分类器420和比较引擎430的任何组合可位于单独的计算设备中。

此外，图4更多地用作可存在于特定具体实施中的各种特征部的功能描述，而不是本文所述的具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图4中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图5是根据一些具体实施的示例性机器学习(ML)***500的框图。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，在一些具体实施中，ML***500包括输入层520、第一隐藏层522、第二隐藏层524和输出层526。虽然作为示例，ML***500包括两个隐藏层，但是本领域的普通技术人员将从本公开理解，在各种实施方式中，也存在一个或多个附加隐藏层。添加附加隐藏层会增加计算复杂性和存储器需求，但可改善某些应用的性能。

在各种具体实施中，输入层520被耦接(例如，配置)以接收输入表征向量502(例如，图4所示的输入表征向量422A)。下文参考图6更详细地描述示例性输入表征向量660的特征部和部件。例如，输入层520从输入表征引擎(例如，图6所示的输入表征引擎640或相关数据缓冲器644)接收输入表征向量502。在各种具体实施中，输入层520包括多个长短期记忆(LSTM)逻辑单元520a等，这些逻辑单元也被本领域的普通技术人员称为神经元的模型。在一些此类具体实施中，从特征部到LSTM逻辑单元520a的输入矩阵包括矩形矩阵。例如，此矩阵的大小是特征流中包含的特征部数量的函数。

在一些具体实施中，第一隐藏层522包括多个LSTM逻辑单元522a等。如图5的示例所示，第一隐藏层522从输入层520接收其输入。例如，第一隐藏层522执行以下操作中的一者或多者：卷积操作、非线性操作、归一化操作、池化操作等。

在一些具体实施中，第二隐藏层524包括多个LSTM逻辑单元524a等。在一些实施方式中，LSTM逻辑单元524a的数量与输入层320中的LSTM逻辑单元520a的数量或第一隐藏层522中的LSTM逻辑单元522a的数量相同或类似。如图5的示例所示，第二隐藏层524从第一隐藏层522接收其输入。附加地和/或另选地，在一些具体实施中，第二隐藏层524从输入层520接收其输入。例如，第二隐藏层524执行以下操作中的一者或多者：卷积操作、非线性操作、归一化操作、池化操作等。

在一些具体实施中，输出层526包括多个LSTM逻辑单元526a等。在一些具体实施中，LSTM逻辑单元526a的数量与输入层520中的LSTM逻辑单元520a的数量、第一隐藏层522中的LSTM逻辑单元522a的数量或第二隐藏层524中的LSTM逻辑单元524a的数量相同或类似。在一些具体实施中，输出层526是执行诸如特征提取、对象识别、对象检测、姿态估计等计算机视觉相关任务的任务相关层。在一些实施方式中，输出层526包括产生估计的用户反应状态530的多项式逻辑函数(例如，柔性最大值函数)的具体实施。

本领域的普通技术人员将理解，图5所示的LSTM逻辑单元可用各种其他ML部件替代。此外，本领域的普通技术人员将理解，在其他具体实施中，ML***500可以多种方式结构化或设计，以摄取输入表征向量502并输出估计的用户反应状态530。

此外，图5更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图5中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图6是根据一些具体实施的示例性输入数据处理架构600的框图。尽管示出了相关特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的示例性具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，输入数据处理架构600包括在计算***中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。

如图6所示，在呈现第一组媒体项之后或同时，输入数据处理架构600(例如，运行时具体实施)获得与多种模态相关联的输入数据(在本文中有时也称为“传感器数据”或“传感器信息”)，这些输入数据包括音频数据602A、生理测量值602B(例如，心率值、呼吸率值、血糖值、血氧饱和度值等)、身体姿态数据602C(例如，身体语言信息、关节位置信息、手部/肢***置信息、头部倾斜信息等)和眼睛跟踪数据602D(例如，瞳孔扩张值、注视方向等)。

例如，音频数据602A对应于由控制器110、电子设备120和/或可选的远程输入设备的一个或多个麦克风捕获的音频信号。例如，生理测量值602B对应于由电子设备120的一个或多个传感器和/或用户150身体上的与控制器110和/或电子设备120通信地耦接的一个或多个可穿戴传感器捕获的信息。例如，身体姿态数据602C对应于由控制器110、电子设备120和/或可选的远程输入设备的一个或多个图像传感器捕获的数据。又如，身体姿态数据602C对应于从用户150身体上的与控制器110和/或电子设备120通信地耦接的一个或多个可穿戴传感器获得的数据。例如，眼睛跟踪数据602D对应于由控制器110、电子设备120和/或可选的远程输入设备的一个或多个图像传感器捕获的图像。

根据一些具体实施，音频数据602A对应于值的持续或连续的时间序列。继而，时间序列转换器610被配置为从连续的音频数据流生成音频数据的一个或多个时间帧。音频数据的每个时间帧包括音频数据602A的时间部分。在一些具体实施中，时间序列转换器610包括多窗口处理模块610A，该多窗口处理模块被配置为针对时间T₁、T₂、...、T_N标记并分离音频数据602A的一个或多个时间帧或部分。

在一些具体实施中，音频数据602A的每个时间帧由预滤波器(未示出)调理。例如，在一些具体实施中，预滤波包括带通滤波以隔离和/或强调通常与人类语音相关联的频谱的部分。在一些具体实施中，预滤波包括预强调音频数据的一个或多个时间帧的部分，以便调整音频数据602A的一个或多个时间帧的频谱组成。附加地和/或另选地，在一些具体实施中，多窗口处理模块610A被配置为从非暂态存储器检索音频数据602A。附加地和/或另选地，在一些具体实施中，预滤波包括使用低噪声放大器(LNA)对音频数据602A进行滤波，以便基本上设置本底噪声以用于进一步处理。在一些具体实施中，预滤波LNA被布置在时间序列转换器610之前。本领域的普通技术人员将理解，可将许多其他预滤波技术应用于音频数据，并且本文强调的那些技术仅仅是可用的许多预滤波选项的示例。

根据一些具体实施，生理测量值602B对应于值的持续的或连续的时间序列。继而，时间序列转换器610被配置为从连续的生理测量数据流生成生理测量数据的一个或多个时间帧。生理测量数据的每个时间帧包括生理测量值602B的时间部分。在一些具体实施中，时间序列转换器410包括多窗口处理模块610A，该多窗口处理模块被配置为针对时间T₁、T₂、...、T_N标记并分离生理测量值602B的一个或多个部分。在一些具体实施中，生理测量值602B的每个时间帧由预滤波器调理或以其他方式预处理。

根据一些具体实施，身体姿态数据602C对应于图像或值的持续或连续的时间序列。继而，时间序列转换器610被配置为从连续的身体姿态数据流生成身体姿态数据的一个或多个时间帧。身体姿态数据的每个时间帧包括身体姿态数据602C的时间部分。在一些具体实施中，时间序列转换器610包括多窗口处理模块610A，该多窗口处理模块被配置为针对时间T₁、T₂、...、T_N标记并分开身体姿态数据602C的一个或多个时间帧或部分。在一些具体实施中，身体姿态数据602C的每个时间帧由预滤波器调理或以其他方式预处理。

根据一些具体实施，眼睛跟踪数据602D对应于图像或值的持续或连续的时间序列。继而，时间序列转换器410被配置为从连续的眼睛跟踪数据流生成眼睛跟踪数据的一个或多个时间帧。眼睛跟踪数据的每个时间帧包括眼睛跟踪数据602D的时间部分。在一些具体实施中，时间序列转换器610包括多窗口处理模块610A，该多窗口处理模块被配置为针对时间T₁、T₂、...、T_N标记并分开眼睛跟踪数据602D的一个或多个时间帧或部分。在一些具体实施中，眼睛跟踪数据602D的每个时间帧由预过滤器调理或以其他方式预处理。

在各种具体实施中，输入数据处理架构600包括隐私子***620，该隐私子***包括与用户信息和/或识别信息(例如，音频数据602A、生理测量值602B、身体姿态数据602C和/或眼睛跟踪数据602D的至少一些部分)相关联的一个或多个隐私滤波器。在一些具体实施中，隐私子***620包括选择加入特征部，其中设备通知用户正在监视哪些用户信息和/或识别信息以及将如何使用这些用户信息和/或识别信息。在一些具体实施中，隐私子***620选择性地防止和/或限制输入数据处理架构600或其部分获取和/或传输用户信息。为此，隐私子***620响应于提示用户进行用户偏好和/或选择来接收来自用户的用户偏好和/或选择。在一些具体实施中，隐私子***620防止数据处理架构600获取和/或传输用户信息，除非并且直到隐私子***620从用户获取到知情同意。在一些具体实施中，隐私子***620匿名化(例如，加扰、模糊化、加密等)某些类型的用户信息。例如，隐私子***620接收指定隐私子***620将哪些类型的用户信息匿名化的用户输入。又如，隐私子***620独立于用户指定(例如，自动地)匿名化可能包括敏感和/或识别信息的某些类型的用户信息。

在一些具体实施中，自然语言处理器(NLP)622被配置为对音频数据602A或其一个或多个时间帧执行自然语言处理(或另外的语音识别技术)。例如，NLP 622包括执行语音转文本(STT)处理的处理模型(例如，隐式马尔可夫模型、动态时间规整算法等)或机器学习节点(例如，CNN、RNN、DNN、SVM、随机森林算法等)。在一些具体实施中，经训练的定性反馈分类器652使用从NLP 622输出的文本来帮助确定估计的用户反应状态672。

在一些具体实施中，语音评估器624被配置为确定与音频数据602A(或其一个或多个时间帧)相关联的一个或多个语音特征。例如，一个或多个语音特征对应于音调、节奏、口音、用语、吐字、发音等。例如，语音评估器624对音频数据602A执行语音分段，以便将音频数据602A分成字词、音节、音素等，并且随后确定针对其的一个或多个语音特征。在一些具体实施中，经训练的定性反馈分类器652使用由语音评估器624输出的一个或多个语音特征来帮助确定估计的用户反应状态672。

在一些具体实施中，生物数据评估器626被配置为评估来自用户的生理和/或生物相关数据，以便确定与用户相关联的一个或多个生理测量值。例如，一个或多个生理测量值对应于心跳信息、呼吸率信息、血压信息、瞳孔扩张信息、葡萄糖水平、血氧饱和度水平等。例如，生物数据评估器626对生理测量值602B执行分段，以便将生理测量值602B分解为瞳孔扩张值、心率值、呼吸率值、血糖值、血氧饱和度值等等。在一些具体实施中，经训练的定性反馈分类器652使用由生物数据评估器626输出的一个或多个生理测量值来帮助确定估计的用户反应状态672。

在一些具体实施中，身体姿态解译器628被配置为确定与身体姿态数据602C(或其一个或多个时间帧)相关联的一个或多个姿态特征。例如，身体姿态解译器628针对每个采样周期(例如，身体姿态数据602C内的每个图像)或预定义的一组采样周期(例如，身体姿态数据602C内的每N个图像)确定用户的总体姿态(例如，坐着、站着、蹲伏等)。例如，身体姿态解译器628针对每个采样周期(例如，身体姿态数据602C内的每个图像)或预定义的一组采样周期(例如，身体姿势数据602C内的每N个图像或每M秒)确定用户的每个关节、肢体和/或身体部位的旋转和/或平移坐标。例如，身体姿态解译器628针对每个采样周期(例如，身体姿态数据602C内的每个图像)或预定义的一组采样周期(例如，身体姿态数据602C内的每N个图像或每M秒)确定特定身体部位(例如，头、手等)的旋转和/或平移坐标。在一些具体实施中，经训练的定性反馈分类器652使用由身体姿态解译器628输出的一个或多个姿态特征来帮助确定估计的用户反应状态672。

在一些具体实施中，注视方向确定器630被配置为确定与眼睛跟踪数据602D(或其一个或多个时间帧)相关联的方向性向量。例如，注视方向确定器630针对每个采样周期(例如，眼睛跟踪数据602D内的每个图像)或预定义的一组采样周期(例如，眼睛跟踪数据602D内的每N个图像或每M秒)确定方向性向量(例如，X、Y和/或焦点坐标)。在一些具体实施中，用户兴趣确定器654使用由注视方向确定器630输出的方向性向量来帮助确定用户兴趣指示674。

在一些具体实施中，输入表征引擎640被配置为基于来自NLP 622、语音评估器624、生物数据评估器626、身体姿态解译器628和注视方向确定器630的输出生成图6所示的输入表征向量660。如图6所示，输入表征向量660包括对应于来自NLP 622的输出的语音内容部分662。例如，语音内容部分662可对应于用户说出“哇，我感到压力很大”，这可能指示压力状态。

在一些具体实施中，输入表征向量660包括对应于来自语音评估器624的输出的语音特征部分664。例如，与快速语音节奏相关联的语音特征可指示紧张状态。又如，与慢速语音节奏相关联的语音特征可指示疲劳状态。又如，与常速语音节奏相关联的语音特征可指示专注状态。

在一些具体实施中，输入表征向量660包括对应于来自生物数据评估器626的输出的生理测量部分666。例如，与高呼吸率和高瞳孔扩张值相关联的生理测量值可对应于兴奋状态。又如，与高血压值和高心率值相关联的生理测量值可对应于压力状态。

在一些具体实施中，输入表征向量660包括对应于来自身体姿态解译器628的输出的身体姿态特征部分668。例如，对应于用户的双臂在他/她的胸前交叉的身体姿态特征可指示焦虑状态。又如，对应于用户舞动的身体姿态特征可指示快乐状态。又如，对应于用户将他/她的手臂在他/她的头部后面交叉的身体姿态特征可指示放松状态。

在一些具体实施中，输入表征向量660包括对应于来自注视方向确定器630的输出的注视方向部分670。例如，注视方向部分670对应于指示用户正在看什么的向量。在一些具体实施中，输入表征向量660还包括与其他输入模态相关联的一个或多个杂项信息部分672。

在一些具体实施中，输入数据处理架构600生成输入表征向量660并将输入表征向量660存储在数据缓冲器644(例如，非暂态存储器)中，该数据缓冲器能够由经训练的定性反馈分类器652和用户兴趣确定器654访问。在一些具体实施中，输入表征向量660的每个部分与不同的输入模态相关联，这些输入模态包括语音内容部分662、语音特征部分664、生理测量部分666、身体姿态特征部分668、注视方向部分670、杂项信息部分672等。本领域的普通技术人员将理解，在其他具体实施中，输入数据处理架构600可以多种方式结构化或设计，以生成输入表征向量660。

在一些具体实施中，经训练的定性反馈分类器652被配置为基于包括来源于输入数据(例如，音频数据602A、生理测量值602B、身体姿态数据602C和眼睛跟踪数据602D)的信息的输入表征向量660来输出估计的用户反应状态672(或与之相关的置信度分数)。类似地，在一些具体实施中，用户兴趣确定器654被配置为基于包括来源于输入数据(例如，音频数据602A、生理测量值602B、身体姿态数据602C和眼睛跟踪数据602D)的信息的输入表征向量660来输出用户兴趣指示674。

虽然上文描述了在所附权利要求书范围内的具体实施的各个方面，但是应当显而易见的是，上述具体实施的各种特征可通过各种各样的形式体现，并且上述任何特定结构和/或功能仅是例示性的。基于本公开，本领域的技术人员应当理解，本文所述的方面可以独立于任何其他方面来实现，并且这些方面中的两个或更多个可以采用各种方式组合。例如，可以使用本文阐述的任何数量的方面来实现装置和/或可以实践方法。另外，除了本文阐述的一个或多个方面之外或者不同于本文阐述的一个或多个方面，可以使用其他结构和/或功能来实现这样的装置和/或可以实践这样的方法。

此外，图6更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图6中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图7A是根据一些具体实施的示例性动态媒体项递送架构700的框图。尽管示出了一些具体特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，动态媒体项递送架构700包括在计算***中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。

根据一些具体实施，内容管理器710包括目标元数据确定器714和具有附随的媒体项缓冲器713的媒体项选择器712。在运行时间期间，媒体项选择器712获得(例如，接收、检索或检测)初始用户选择702。例如，初始用户选择702可对应于对媒体项的集合(例如，来自度假或其他事件的图像相簿)、一个或多个单独选择的媒体项、关键字或搜索字符串(例如，巴黎、雨、森林等)等的选择。

在一些具体实施中，媒体项选择器712基于初始用户选择702从媒体项储存库750获得(例如，接收、检索等)与第一元数据相关联的第一组媒体项。如上所述，媒体项储存库750包括多个媒体项诸如A/V内容和/或多个虚拟/XR对象、项目、场景等。在一些具体实施中，媒体项储存库750相对于动态媒体项递送架构700本地和/或远程地存储。在一些具体实施中，媒体项储存库750由用户150预先填充或手动创作。下文参考图7B更详细地描述媒体项储存库750。

在一些具体实施中，当第一组媒体项对应于虚拟/XR内容时，姿态确定器722确定电子设备120和/或用户150相对于第一组媒体项和/或物理环境的位置的当前相机姿态。在一些具体实施中，当第一组媒体项对应于虚拟/XR内容时，渲染器724根据相对于第一组媒体项的当前相机姿态对该第一组媒体项进行渲染。根据一些具体实施，姿态确定器722响应于检测到电子设备120和/或用户150的平移和/或旋转移动而更新当前相机姿态。

在一些具体实施中，当第一组媒体项对应于虚拟/XR内容时，合成器726获取(例如接收、检索等)由图像捕获设备370捕获的物理环境的一个或多个图像。此外，在一些具体实施中，合成器726将第一组渲染的媒体项与物理环境的一个或多个图像合成以产生一个或多个渲染的图像帧。在一些具体实施中，合成器726获取(例如接收、检索、确定/生成或以其他方式访问)与物理环境相关联的深度信息(例如，点云、网格等)以保持z轴次序并减少该第一组渲染的媒体项与物理环境中的物理对象之间的遮挡。

在一些具体实施中，A/V呈现器728呈现一个或多个渲染的图像帧或使其呈现(例如，经由一个或多个显示器312等)。本领域的普通技术人员将理解，当第一组媒体项对应于平面A/V内容时，可以不执行上述步骤。

根据一些具体实施，输入数据摄取器615摄取用户输入数据，诸如由一个或多个输入设备采集的用户反应信息和/或一个或多个肯定的用户反馈输入。在一些具体实施中，输入数据摄取器615还处理用户输入数据以生成从其得出的用户表征向量660。根据一些具体实施，一个或多个输入设备包括眼睛跟踪引擎、身体姿态跟踪引擎、心率监测仪、呼吸率监测仪、血糖监测仪、血氧饱和度监测仪、麦克风、图像传感器、身体姿态跟踪引擎、头部姿态跟踪引擎、肢体/手部跟踪引擎等中的至少一者。上文参考图6更详细地描述输入数据摄取器615。

在一些具体实施中，定性反馈分类器652基于用户表征向量660生成对第一组媒体项的估计的用户反应状态672(或与之相关的置信度分数)。例如，估计的用户反应状态672可对应于用户150对第一组媒体项做出反应的情绪状态或心情，诸如快乐、悲伤、兴奋、压力、恐惧等。

在一些具体实施中，用户兴趣确定器654基于用户表征向量660内的一个或多个肯定的用户反馈输入来生成用户兴趣指示674。例如，用户兴趣指示674可对应于作为用户150正注视着的注视方向的对象的特定人、对象、地标等、用户150作出的指向手势或来自用户150的语音请求。例如，在查看第一组媒体项时，计算***可检测到用户150的视线专注于第一组媒体项内的特定人，诸如他/她的配偶或孩子，以指示他们对此感兴趣。又如，在查看第一组媒体项时，计算***可检测到来自用户150的指向第一组媒体项内的特定对象的指向手势，以指示他们对此感兴趣。又如，在查看第一组媒体项时，计算***可检测到来自用户150的语音命令，该语音命令对应于对第一组媒体项内的特定对象、人等的选择或兴趣。

在一些具体实施中，目标元数据确定器714基于估计的用户反应状态672、用户兴趣指示674和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。例如，如果估计的用户反应状态672对应于快乐，并且用户兴趣指示674对应于对特定人感兴趣，则一个或多个目标元数据特征可对应于与该特定人的快乐时光。

因此，在各种具体实施中，媒体项选择器712从媒体项储存库750获得与一个或多个目标元数据特征相关联的第二组项目。例如，媒体项选择器712从媒体项储存库750中选择与一个或多个目标元数据特征匹配的第二组媒体项。又如，媒体项选择器712从媒体项储存库750中选择在预定义的公差内与一个或多个目标元数据特征匹配的第二组媒体项。此后，当第二组媒体项对应于虚拟/XR内容时，姿态确定器722、渲染器724、合成器726和A/V呈现器728重复上文相对于第一组项目提及的操作。

在一些具体实施中，第二组媒体项以空间上有意义的方式呈现，该方式考虑了与第二组媒体项相关联的当前物理环境和/或过去物理环境(或与之相关的特征)的空间上下文。例如，如果第一组媒体项对应于用户的孩子正在其家中玩耍的图像相簿，并且用户注视着第一组媒体项内的小地毯、沙发或其他家具项目，则计算***可呈现相对于用户当前物理环境内的小地毯、沙发或其他家具项目的第二组媒体项(例如，用户的孩子正在其家中玩耍的图像相簿的延续)作为空间锚。又如，如果第一组媒体项对应于来自海滩上的一天的图像相簿，并且用户注视着他/她的在第一组媒体项内搭建沙堡的孩子，则计算***可呈现相对于用户当前物理环境中的与跟过去的物理环境相关联的尺寸、视角、光线方向、空间特征和/或其他特征中的至少一部分相匹配的位置的第二组媒体项(例如，海滩上的那天的图像相簿的延续)，该过去的物理环境在一定程度的容忍度或置信度内与海滩上的那天的图像相簿相关联。

此外，图7A更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图7A中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图7B示出了根据一些具体实施的用于媒体项储存库750的示例性数据结构。尽管示出了一些具体特征，但本领域的普通技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，媒体项储存库750包括与第一媒体项762A相关联的第一条目760A和与第N媒体项762N相关联的第N条目760N。

如图7B所示，第一条目760A包括用于第一媒体项762A的固有元数据764A，诸如当第一媒体项762A对应于视频和/或音频内容时的长度/运行时间、大小(例如，以MB、GB等为单位)、分辨率、格式、创建日期、最后修改日期等。在图7B中，第一条目760A还包括用于第一媒体项762A的上下文元数据766A，诸如与第一媒体项762A相关联的地点或位置、与第一媒体项762A相关联的事件、与第一媒体项762A相关联的一个或多个对象和/或地标、与第一媒体项762A相关联的一个或多个人和/或面部等。

类似地，如图7B所示，第N条目760N包括第N媒体项762N的固有元数据764N和上下文元数据766N。本领域的普通技术人员将知道，在各种其他具体实施中，媒体项储存库750及其部件的结构可不同。

图8A是根据一些具体实施的另一示例性动态媒体项递送架构800的框图。为此，作为非限制性示例，动态媒体项递送架构800包括在计算***中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。图8A中的动态媒体项递送架构800类似于图7A中的动态媒体项递送架构700并据其进行调整。因此，本文使用类似的附图标记，并且为了简洁起见，将仅描述不同之处。

如图8A所示，第一组媒体项和估计的用户反应状态672相关联地存储在用户反应历史数据存储库810内。因此，在一些具体实施中，目标元数据确定器714基于估计的用户反应状态672、用户兴趣指示674、用户反应历史数据存储库810和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。

此外，图8A更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图8A中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图8B示出了根据一些具体实施的用于用户反应历史数据存储库810的示例性数据结构。参考图8B，用户反应历史数据存储库810包括与第一媒体项822A相关联的第一条目820A和与第N媒体项822N相关联的第N条目820N。如图8B所示，第一条目820A包括第一媒体项822A、与第一媒体项822A相关联的估计的用户反应状态824A、从中确定估计的用户反应状态824A的用户输入数据862A，以及上下文信息828A，诸如表征呈现第一媒体项822A时的上下文的时间、位置、环境测量值等。

类似地，在图8B中，第N条目820N包括第N媒体项822N、与第二媒体项822N相关联的估计的用户反应状态824N、从中确定估计的用户反应状态824N的用户输入数据862N，以及上下文信息828N，诸如表征呈现第N媒体项822N时的上下文的时间、位置、环境测量值等。本领域的普通技术人员将理解，在各种其他实施方式中，用户反应历史数据存储库810及其部件的结构可以不同。

图9是根据一些具体实施的动态媒体项递送的方法900的流程图表示。在各种具体实施中，方法900在包括非暂态存储器和一个或多个处理器的计算***处执行，其中该计算***通信地耦接到显示设备和一个或多个输入设备(例如，图1和图3中所示的电子设备120；图1和图2中的控制器110；和/或它们的合适组合中)。在一些具体实施中，方法900由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法900由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。在一些具体实施中，电子设备对应于平板电脑、膝上型电脑、移动电话、近眼***、可穿戴计算设备等中的一者。

在一些情况下，用户基于地理位置、面部识别、事件等在已标记的图像或媒体内容的分组之间手动选择。例如，用户选择夏威夷度假相簿，然后手动选择包括特定家庭成员的不同相簿或照片。相比之下，方法900描述了一种过程，计算***通过该过程基于对图像或媒体内容流的用户反应(诸如注视方向、身体语言、心率、呼吸率、语音节奏、语音音调等)动态地更新该图像或媒体内容流。作为一个示例，在查看媒体内容流(例如，与事件相关联的图像)时，计算***基于用户对该媒体内容流的反应对其进行动态地改变。例如，在查看与生日聚会相关联的图像时，如果用户的注视专注于特定的人，则计算***转变为显示与此人相关联的图像。又如，在查看与特定地点或人相关联的图像时，如果用户表现出升高的心率和呼吸率以及眼睛扩张，则***可推断出用户很兴奋或快乐并且继续显示与该地点或人相关联的更多图像。

如框9-1所示，方法900包括呈现与第一元数据相关联的第一组媒体项。例如，第一组媒体项对应于图像相簿、一组视频等。在一些具体实施中，第一元数据与特定事件、人、位置/地点、对象、地标等相关联。

例如，参考图7A，计算***或其部件(例如，媒体项选择器712)基于初始用户选择702从媒体项储存库750获得(例如，接收、检索等)与第一元数据相关联的第一组媒体项。继续该示例，当第一组媒体项对应于虚拟/XR内容时，计算***或其部件(例如，姿态确定器722)确定电子设备120和/或用户150相对于该第一组媒体项和/或物理环境的位置的当前相机姿态。

继续该示例，当第一组媒体项对应于虚拟/XR内容时，计算***或其部件(例如，渲染器724)根据相对于该第一组媒体项的当前相机姿态渲染该第一组媒体项。根据一些具体实施，姿态确定器722响应于检测到电子设备120和/或用户150的平移和/或旋转移动而更新当前相机姿态。继续该示例，当第一组媒体项对应于虚拟/XR内容时，计算***或其部件(例如，合成器726)获取(例如，接收、检索等)由图像捕获设备370捕获的物理环境的一个或多个图像。

此外，当第一组媒体项对应于虚拟/XR内容时，计算***或其部件(例如，合成器726)将第一组渲染的媒体项与物理环境的一个或多个图像合成以产生一个或多个渲染的图像帧。最后，计算***或其部件(例如，A/V呈现器728)呈现一个或多个渲染的图像帧或使其呈现(例如，经由一个或多个显示器312等)。本领域的普通技术人员将理解，当第一组媒体项对应于平面A/V内容时，可以不执行上述步骤。

如框9-2所示，方法900包括在呈现第一组媒体项时获得(例如，接收、检索、收集/收集等)由一个或多个输入设备收集的用户反应信息。在一些具体实施中，用户反应信息对应于从其导出的用户表征向量，该用户表征向量包括与计算***的用户相关联的一个或多个固有用户反馈测量值，该一个或多个固有用户反馈测量值包括身体姿态特征、语音特征、瞳孔扩张值、心率值、呼吸率值、血糖值、血氧饱和度值等中的至少一者。例如，身体姿态特征包括头部/手部/肢体姿态信息，诸如关节位置等。例如，语音特征包括节奏、每分钟字数、音调等。

例如，参考图7A，计算***或其部件(例如，输入数据摄取器615)摄取用户输入数据，诸如用户反应信息和/或由一个或多个输入设备采集的一个或多个肯定的用户反馈输入。继续该示例，计算***或其部件(例如，输入数据摄取器615)还处理用户输入数据以生成从其得出的用户表征向量660。根据一些具体实施，一个或多个输入设备包括眼睛跟踪引擎、身体姿态跟踪引擎、心率监测仪、呼吸率监测仪、血糖监测仪、血氧饱和度监测仪、麦克风、图像传感器、身体姿态跟踪引擎、头部姿态跟踪引擎、肢体/手部跟踪引擎等中的至少一者。上文参考图6更详细地描述了输入数据摄取器615和输入表征向量660。

如框9-3所示，方法900包括经由定性反馈分类器基于用户反应信息获得(例如，接收、检索或生成/确定)对第一组媒体项的估计的用户反应状态。在一些具体实施中，定性反馈分类器对应于经训练的ML***(例如，神经网络、CNN、RNN、DNN、SVM、随机森林算法等)，该ML***摄取用户表征向量(例如，一个或多个固有用户反馈测量值)并输出用户反应状态(例如，情绪状态、心情等)或与之相关的置信度分数。在一些具体实施中，定性反馈分类器对应于将用户表征向量(例如，一个或多个固有用户反馈测量值)映射到反应表/矩阵的查找引擎。

例如，参考图7A，计算***或其部件(例如，经训练的定性反馈分类器652)基于用户表征向量660生成对第一组媒体项的估计的用户反应状态672(或与之相关的置信度分数)。例如，估计的用户反应状态672可对应于用户150对第一组媒体项做出反应的情绪状态或心情，诸如快乐、悲伤、兴奋、压力、恐惧等。

如框9-4所示，方法900包括基于所估计的用户反应状态和第一元数据来获取(例如，接收、检索或生成/确定)一个或多个目标元数据特征。在一些具体实施中，一个或多个目标元数据特征包括特定人物、特定地点、特定事件、特定对象或特定地标中的至少一者。

例如，参考图7A，计算***或其部件(例如，目标元数据确定器714)基于估计的用户反应状态672、用户兴趣指示674和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。例如，如果估计的用户反应状态672对应于快乐，并且用户兴趣指示674对应于对特定人感兴趣，则一个或多个目标元数据特征可对应于与该特定人的快乐时光。

在一些具体实施中，方法900包括：获得与计算***的用户相关联的传感器信息，其中该传感器信息对应于一个或多个肯定的用户反馈输入；以及基于该一个或多个肯定的用户反馈输入生成用户兴趣指示，其中一个或多个目标元数据特征基于所估计的用户反应状态和该用户兴趣指示来确定。例如，用户兴趣指示对应于注视方向、语音命令、指向手势等中的一者。在一些具体实施中，一个或多个肯定的用户反馈输入对应于注视方向、语音命令或指向手势中的一者。例如，如果估计的用户反应状态672对应于快乐，并且用户兴趣指示674对应于对特定人感兴趣，则一个或多个目标元数据特征可对应于与该特定人的快乐时光。

例如，参考图7A，计算***或其部件(例如，用户兴趣确定器654)基于用户表征向量660内的一个或多个肯定的用户反馈输入来生成用户兴趣指示674。继续该示例，参考图7A，计算***或其部件(例如，目标元数据确定器714)基于估计的用户反应状态672、用户兴趣指示674和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。

在一些具体实施中，方法900包括将估计的用户反应状态与用户反应历史数据存储库中的第一组媒体项联系起来。在一些具体实施中，用户反应历史数据存储库还可以与用户兴趣指示和/或用户状态指示一起使用，以确定一个或多个目标元数据特征。上文参考图8B更详细地描述了用户反应历史数据存储库810。例如，参考图8A，计算***或其部件(例如，目标元数据确定器714)基于估计的用户反应状态672、用户兴趣指示674、用户反应历史数据存储库810和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。

如框9-5所示，方法900包括获得(例如，接收、检索或生成)与对应于一个或多个目标元数据特征的第二元数据相关联的第二组媒体项。例如，参考图7A，计算***或其部件(例如，媒体项选择器712)从媒体项储存库750获得与一个或多个目标元数据特征相关联的第二组项目。例如，媒体项选择器712从媒体项储存库750中选择与一个或多个目标元数据特征匹配的媒体项。又如，媒体项选择器712从媒体项储存库750中选择在预定义的公差内与一个或多个目标元数据特征匹配的媒体项。

如框9-6所示，方法900包括经由显示设备呈现(或使得呈现)与第二元数据相关联的第二组媒体项。例如，参考图7A，当第二组媒体项对应于虚拟/XR内容时，计算***或其部件(例如，姿态确定器722、渲染器724、合成器726和A/V呈现器728)重复上文参考框9-1提及的操作以呈现或使得呈现第二组媒体项。

在一些具体实施中，第一组媒体项和第二组媒体项对应于音频或视觉内容(例如，图像、视频、音频等)中的至少一者。在一些具体实施中，第一组媒体项和第二组媒体项是互斥的。在一些具体实施中，第一组媒体项和第二组媒体项包括至少一个重叠的媒体项。

在一些具体实施中，显示设备对应于透明镜头组件，并且其中第一组媒体项和第二组媒体项被投影到透明镜头组件上。在一些具体实施中，显示设备对应于近眼***，并且其中呈现第一组媒体项和第二组媒体项包括将第一组媒体项或第二组媒体项与由面向外部的图像传感器捕获的物理环境的一个或多个图像合成。

图10是根据一些具体实施的另一示例性动态媒体项递送架构1000的框图。为此，作为非限制性示例，动态媒体项递送架构1000包括在计算***中，诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。图10中的动态媒体项递送架构1000类似于图7A中的动态媒体项递送架构700和图8A中的动态媒体项递送架构800并据其进行调整。因此，本文使用类似的附图标记，并且为了简洁起见，将仅描述不同之处。

如图10所示，内容管理器710包括随机化器1010。例如，随机化器1010可对应于随机化算法、伪随机化算法、利用熵的自然来源(例如，放射性衰变、热噪声、无线电噪声等)的随机数发生器等。为此，在一些具体实施中，媒体项选择器712基于随机化器1010提供的随机或伪随机种子从媒体项储存库750获得(例如，接收、检索等)与第一元数据相关联的第一组媒体项。因此，内容管理器710随机选择第一组媒体项，以便提供下文参考图11A至图11C和图12更详细描述的偶发性用户体验。

此外，在图10中，在一些具体实施中，目标元数据确定器714基于用户兴趣指示674和/或与高速缓存在媒体项缓冲器713中的第一组媒体项相关联的第一元数据来确定一个或多个目标元数据特征。例如，如果用户兴趣指示674对应于对特定人感兴趣，则一个或多个目标元数据特征可对应于该特定人。因此，在各种具体实施中，媒体项选择器712从媒体项储存库750获得与一个或多个目标元数据特征相关联的第二组项目。

此外，图10更多地用作存在于特定具体实施中的各种特征部的功能描述，而不是本文所述具体实施的结构示意。如本领域的普通技术人员将认识到的，单独显示的项目可以组合，并且一些项目可以分开。例如，图10中单独示出的一些功能模块可以在单个模块中实现，并且单个功能块的各种功能可在各种具体实施中通过一个或多个功能块来实现。模块的实际数量和特定功能的划分以及如何在其中分配特征将根据具体实施而变化，并且在一些具体实施中，部分地取决于为特定实施方案选择的硬件、软件和/或固件的特定组合。

图11A至图11C示出了根据一些具体实施的偶发性媒体项递送场景的一系列实例1110、1120和1130。尽管示出了一些具体特征，但本领域的技术人员将从本公开中认识到，为简洁起见并且为了不模糊本文所公开的具体实施的更多相关方面，未示出各种其他特征。为此，作为非限制性示例，该一系列实例1110、1120和1130由计算***来执行，该计算***诸如图1和图2所示的控制器110；图1和图3所示的电子设备120；和/或它们的合适组合中。

如图11A至图11C所示，偶发性媒体项递送场景包括在电子设备120的显示器122上显示的物理环境105和XR环境128。当用户150物理地存在于物理环境105内时，电子设备120向用户150呈现XR环境128，该物理环境包括电子设备120的面向外部的图像传感器的视场(FOV)111内的桌子107。因此，在一些具体实施中，用户150将电子设备120握持在他/她的手中，类似于图1中的操作环境100。

换句话讲，在一些具体实施中，电子设备120被配置为在显示器122上呈现虚拟/XR内容并实现物理环境105的至少一部分的光学透传或视频透传。例如，电子设备120对应于移动电话、平板电脑、膝上型电脑、近眼***、可穿戴计算设备等。

如图11A所示，在偶发性媒体项递送场景的实例1110(例如，与时间T₁相关联)期间，电子设备120根据重力指示符1125以降落动画呈现包括第一多个虚拟对象1115的XR环境128。尽管在图11A至图11C中第一多个虚拟对象1115以以XR环境128内的桌子107的表示为中心的降落动画示出，但本领域的普通技术人员将理解，降落动画可以以物理环境105内的不同点为中心，诸如以电子设备120或用户150为中心。此外，尽管第一多个虚拟对象1115在图11A至图11C中以降落动画示出，但本领域的普通技术人员将理解，该降落动画可被替换为其他动画，诸如上升动画、朝向电子设备120或用户150的粒子流、远离电子设备120或用户150的粒子流等。

在图11A中，电子设备120显示相对于物理环境105或覆盖在该物理环境上的第一多个虚拟对象1115。因此，在一个示例中，第一多个虚拟对象1115与物理环境105的至少一部分的光学透视或视频透视合成。

在一些具体实施中，第一多个虚拟对象1115包括具有不同元数据特征的媒体项的虚拟表示。例如，虚拟表示1122A对应于与第一元数据特征(例如，包括特定人或至少他/她的面部的一个或多个图像)相关联的一个或多个媒体项。例如，虚拟表示1122B对应于与第二元数据特征(例如，包括特定对象诸如狗、猫、树、花等的一个或多个图像)相关联的一个或多个媒体项。例如，虚拟表示1122C对应于与第三元数据特征相关联的一个或多个媒体项(例如，与特定事件诸如生日聚会相关联的一个或多个图像)。例如，虚拟表示1122D对应于与第四元数据特征相关联的一个或多个媒体项(例如，与特定时间段诸如特定某天、某周等相关联的一个或多个图像)。例如，虚拟表示1122E对应于与第五元数据特征相关联的一个或多个媒体项(例如，与特定位置诸如城市、州等相关联的一个或多个图像)。例如，虚拟表示1122F对应于与第六元数据特征相关联的一个或多个媒体项(例如，与特定文件类型或格式相关联的一个或多个图像，诸如静止图像、实时图像、视频等)。例如，虚拟表示1122G对应于与第七元数据特征相关联的一个或多个媒体项(例如，与特定***或用户指定的标签/标记诸如情绪标签、重要标记等相关联的一个或多个图像)。

在一些具体实施中，第一多个虚拟对象1115对应于第一多个媒体项的虚拟表示，其中第一多个媒体项伪随机地选自图7B和图10所示的媒体项储存库750。

如图11B所示，在偶发性媒体项递送场景的实例1120(例如，与时间T₂相关联)期间，电子设备120继续根据重力指示符1125以降落动画呈现包括第一多个虚拟对象1115的XR环境128。如图11B所示，第一多个虚拟对象1115继续在桌子107上“降雨”，并且第一多个虚拟对象1115的一部分1116已经累积在XR环境128内的桌子107的表示上。

如图11B所示，用户用他/她的右手150A握持电子设备120，并且用他/她的左手150B在物理环境105内执行指向手势。因此，在图11B中，电子设备120或其部件(例如，手/肢体跟踪引擎)检测到用用户的左手150B在物理环境105内的指向手势。响应于检测到用用户的左手150B在物理环境105内的指向手势，电子设备120或其部件在XR环境128内显示用户的左手150B的表示1135，并且还将用用户的左手150B在物理环境105内的指向手势的跟踪位置映射到在XR环境128内的相应虚拟对象1122D。在一些具体实施中，指向手势指示用户对相应的虚拟对象1122D感兴趣。

响应于检测到指示用户对相应的虚拟对象1122D感兴趣的指向手势，计算***获得与相应的虚拟对象1122D相关联的目标元数据特征。例如，目标元数据特征对应于与相应的虚拟对象1122D相关联的媒体项的特定事件、人、位置/地点、对象、地标等中的一者或多者。因此，根据一些具体实施，计算***从媒体项储存库中选择与对应于目标元数据特征的相应元数据特征相关联的第二多个媒体项。例如，相应的元数据特征和目标元数据特征匹配。又如，相应的元数据特征和目标元数据特征在预定义的公差阈值内相似。

如图11C所示，在偶发性媒体项递送场景的实例1130(例如，与时间T₃相关联)期间，响应于在图11B中检测到指示用户对相应的虚拟对象1122D感兴趣的指向手势，电子设备120根据重力指示符1125以降落动画呈现包括第二多个虚拟对象1140的XR环境128。在一些具体实施中，第二多个虚拟对象1140包括媒体项的虚拟表示，该媒体项具有与目标元数据特征对应的相应元数据特征。

图12是根据一些具体实施的偶发性媒体项递送的方法1200的流程图表示。在各种具体实施中，方法1200在包括非暂态存储器和一个或多个处理器的计算***处执行，其中该计算***通信地耦接到显示设备和一个或多个输入设备(例如，图1和图3中所示的电子设备120；图1和图2中的控制器110；和/或它们的合适组合中)。在一些具体实施中，方法1200由处理逻辑部件(包括硬件、固件、软件或其组合)执行。在一些具体实施中，方法1200由执行存储在非暂态计算机可读介质(例如，存储器)中的代码的处理器执行。在一些具体实施中，电子设备对应于平板电脑、膝上型电脑、移动电话、近眼***、可穿戴计算设备等中的一者。

在一些情况下，当前媒体查看应用程序缺乏偶发性质。通常，用户简单地选择与一组预先分类的图像相关联的相簿或事件。相比之下，在下文所述的方法1200中，图像的虚拟表示在XR环境内“降雨”，其中图像伪随机地选自用户的相机胶卷等。然而，如果设备检测到用户对虚拟表示中的一个虚拟表示感兴趣，则“伪随机降雨”效果被改变为对应于用户兴趣的图像的虚拟表示。因此，为了在查看媒体时提供偶发性效果，伪随机选择的媒体项的虚拟表示在XR环境内“降雨”。

如框12-1所示，方法1200包括经由显示设备呈现包括第一多个虚拟对象的动画(或使其呈现)，其中该第一多个虚拟对象对应于第一多个媒体项的虚拟表示，并且其中该第一多个媒体项伪随机地选自媒体项储存库。在一些具体实施中，媒体项储存库包括音频或视觉内容(例如，图像、视频、音频等)中的至少一者。例如，参考图10，计算***或其部件(例如，媒体项选择器712)基于随机化器1010提供的随机或伪随机种子从媒体项储存库750获得(例如，接收、检索等)第一多个媒体项。因此，内容管理器710随机选择第一组媒体项，以便提供上文参考图11A至图11C更详细描述的偶发性用户体验。

如图11A所示，例如，电子设备120根据重力指示符1125以降落动画呈现包括第一多个虚拟对象1115的XR环境128。继续该示例，第一多个虚拟对象1115包括具有不同元数据特征的媒体项的虚拟表示。例如，虚拟表示1122A对应于与第一元数据特征(例如，包括特定人或至少他/她的面部的一个或多个图像)相关联的一个或多个媒体项。例如，虚拟表示1122B对应于与第二元数据特征(例如，包括特定对象诸如狗、猫、树、花等的一个或多个图像)相关联的一个或多个媒体项。

在一些具体实施中，第一多个虚拟对象对应于第一多个媒体项的三维(3D)表示。例如，3D表示对应于第一多个媒体项的3D模型、3D重建等。在一些具体实施中，第一多个虚拟对象对应于第一多个媒体项的二维(2D)表示。

在一些具体实施中，动画对应于模拟以计算***(例如，雨、雪等)为中心的降雨效果的降落动画。在一些具体实施中，动画对应于模拟与计算***偏移阈值距离的降雨效果的降落动画。在一些具体实施中，动画对应于朝向计算***的第一多个虚拟对象的粒子流。在一些具体实施中，动画对应于远离计算***的第一多个虚拟对象的粒子流。本领域的普通技术人员将理解，上述动画类型是非限制性示例，并且可在各种其他具体实施中使用无数动画类型。

如框12-2所示，方法1200包括经由一个或多个输入设备检测指示对与第一多个媒体项中的特定媒体项相关联的相应虚拟对象感兴趣的用户输入。例如，用户输入对应于注视方向、语音命令、指向手势等中的一者。在一些具体实施中，指示对相应虚拟对象感兴趣的用户输入在本文中也可被称为肯定的用户反馈输入。例如，参考图10，计算***或其部件(例如，输入数据摄取器615)摄取用户输入数据，诸如用户反应信息和/或由一个或多个输入设备采集的一个或多个肯定的用户反馈输入。根据一些具体实施，一个或多个输入设备包括眼睛跟踪引擎、身体姿态跟踪引擎、心率监测仪、呼吸率监测仪、血糖监测仪、血氧饱和度监测仪、麦克风、图像传感器、身体姿态跟踪引擎、头部姿态跟踪引擎、肢体/手部跟踪引擎等中的至少一者。上文参考图6更详细地描述输入数据摄取器615。

如图11B中所示，例如，电子设备120或其部件(例如，手/肢体跟踪引擎)检测到用用户的左手150B在物理环境105内的指向手势。继续该示例，响应于检测到用用户的左手150B在物理环境105内的指向手势，电子设备120或其部件在XR环境128内显示用户的左手150B的表示1135，并且还将用用户的左手150B在物理环境105内的指向手势的跟踪位置映射到在XR环境128内的相应虚拟对象1122D。在一些具体实施中，指向手势指示用户对相应的虚拟对象1122D感兴趣。

响应于检测到用户输入，如框12-3所示，方法1200包括获得(例如，接收、检索、收集/收集等)与特定媒体项相关联的目标元数据特征。在一些具体实施中，一个或多个目标元数据特征包括特定人物、特定地点、特定事件、特定对象或特定地标等中的至少一者。例如，参考图10，计算***或其部件(例如，目标元数据确定器714)基于用户兴趣指示674(例如，与用户输入相关联)和/或与高速缓存在媒体项缓冲器713中的第一多个媒体项相关联的元数据来确定一个或多个目标元数据特征。

响应于检测到用户输入，如框12-4所示，方法1200包括从媒体项储存库中选择与对应于目标元数据特征的相应元数据特征相关联的第二多个媒体项。例如，参考图10，计算***或其部件(例如，媒体项选择器712)从媒体项储存库750获得与一个或多个目标元数据特征相关联的第二多个媒体项。

响应于检测到用户输入，如框12-5所示，方法1200包括经由显示设备呈现(或使得呈现)包括第二多个虚拟对象的动画，其中该第二多个虚拟对象对应于来自媒体项储存库的第二多个媒体项的虚拟表示。如图11C所示，例如，响应于在图11B中检测到指示用户对相应的虚拟对象1122D感兴趣的指向手势，电子设备120根据重力指示符1125以降落动画呈现包括第二多个虚拟对象1140的XR环境128。在一些具体实施中，第二多个虚拟对象1140包括媒体项的虚拟表示，该媒体项具有与目标元数据特征对应的相应元数据特征。

例如，相应的元数据特征和目标元数据特征匹配。又如，相应的元数据特征和目标元数据特征在预定义的公差阈值内相似。在一些具体实施中，第一多个虚拟对象和第二多个虚拟对象是互斥的。在一些具体实施中，第一多个虚拟对象和第二多个虚拟对象对应于至少一个重叠的媒体项。

在一些具体实施中，显示设备对应于透明透镜组件，并且其中呈现动画包括将包括第一多个虚拟对象或第二多个虚拟对象的动画投影到该透明透镜组件上。在一些具体实施中，显示设备对应于近眼***，并且其中呈现动画包括将第一多个虚拟对象或第二多个虚拟对象与由面向外部的图像传感器捕获的物理环境的一个或多个图像合成。

还将理解的是，虽然术语“第一”、“第二”等可能在本文中用于描述各种元素，但是这些元素不应当被这些术语限定。这些术语只是用于将一个元件与另一元件区分开。例如，第一媒体项可以被称为第二媒体项，并且类似地，第二媒体项可以被称为第一媒体项，这改变描述的含义，只要出现的“第一媒体项”被一致地重命名并且出现的“第二媒体项”被一致地重命名。该第一媒体项和该第二媒体项都是媒体项，但它们不是相同的媒体项。

本文中所使用的术语仅仅是为了描述特定具体实施并非旨在对权利要求进行限制。如在本具体实施的描述和所附权利要求书中所使用的那样，单数形式的“一个”、“一”和“该”旨在也涵盖复数形式，除非上下文清楚地另有指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件，和/或其分组。

如本文所使用的，术语“如果”可以被解释为表示“当所述先决条件为真时”或“在所述先决条件为真时”或“响应于确定”或“根据确定”或“响应于检测到”所述先决条件为真，具体取决于上下文。类似地，短语“如果确定[所述先决条件为真]”或“如果[所述先决条件为真]”或“当[所述先决条件为真]时”被解释为表示“在确定所述先决条件为真时”或“响应于确定”或“根据确定”所述先决条件为真或“当检测到所述先决条件为真时”或“响应于检测到”所述先决条件为真，具体取决于上下文。

Claims

1.一种方法，包括：

在包括非暂态存储器和一个或多个处理器的计算***处，其中所述计算***通信地耦接到显示设备和一个或多个输入设备：

经由所述显示设备呈现与第一元数据相关联的第一组媒体项；

在呈现所述第一组媒体项的同时，获得由所述一个或多个输入设备采集的用户反应信息；

经由定性反馈分类器基于该用户反应信息获得对所述第一组媒体项的估计的用户反应状态；

基于所估计的用户反应状态和该第一元数据来获得一个或多个目标元数据特征；

获得与对应于所述一个或多个目标元数据特征的第二元数据相关联的第二组媒体项；以及

经由所述显示设备呈现与所述第二元数据相关联的所述第二组媒体项。

2.根据权利要求1所述的方法，其中所述用户反应信息对应于用户表征向量，所述用户表征向量包括与所述计算***的用户相关联的一个或多个固有用户反馈测量值，所述一个或多个固有用户反馈测量值包括身体姿态特征、语音特征、瞳孔扩张值、心率值、呼吸率值、血糖值和血氧饱和度值中的至少一者。

3.根据权利要求1所述的方法，其中所述定性反馈分类器对应于查找引擎、神经网络、卷积神经网络(CNN)、递归神经网络(RNN)、深度神经网络(DNN)、状态向量机(SVM)或随机森林算法。

4.根据权利要求1所述的方法，其中所述一个或多个输入设备包括眼睛跟踪引擎、身体姿态跟踪引擎、心率监测仪、呼吸率监测仪、血糖监测仪、血氧饱和度监测仪、麦克风、图像传感器、身体姿态跟踪引擎、头部姿态跟踪引擎或肢体/手部跟踪引擎中的至少一者。

5.根据权利要求1所述的方法，还包括：

获得与所述计算***的用户相关联的传感器信息，其中所述传感器信息对应于一个或多个肯定的用户反馈输入；以及

基于所述一个或多个肯定的用户反馈输入生成用户兴趣指示，其中所述一个或多个目标元数据特征基于所估计的用户反应状态和所述用户兴趣指示来确定。

6.根据权利要求5所述的方法，其中所述一个或多个肯定的用户反馈输入对应于注视方向、语音命令或指向手势中的一者。

7.根据权利要求1所述的方法，还包括：

将所估计的用户反应状态与用户反应历史数据存储库中的所述第一组媒体项联系起来。

8.根据权利要求7所述的方法，其中确定所述一个或多个目标元数据特征包括基于所估计的用户反应状态和所述用户反应历史数据存储库来确定所述一个或多个目标元数据特征。

9.根据权利要求1所述的方法，其中所述一个或多个目标元数据特征包括特定人物、特定地点、特定事件、特定对象或特定地标中的至少一者。

10.一种设备，包括：

一个或多个处理器；

非暂态存储器；

接口，所述接口用于与显示设备和一个或多个输入设备进行通信；和

存储在所述非暂态存储器中的一个或多个程序，所述一个或多个程序当由所述一个或多个处理器执行时使所述设备：

经由定性反馈分类器基于所述用户反应信息获得对所述第一组媒体项的估计的用户反应状态；

基于所估计的用户反应状态和所述第一元数据来获得一个或多个目标元数据特征；

11.根据权利要求10所述的设备，其中所述用户反应信息对应于用户表征向量，所述用户表征向量包括与所述计算***的用户相关联的一个或多个固有用户反馈测量值，所述一个或多个固有用户反馈测量值包括身体姿态特征、语音特征、瞳孔扩张值、心率值、呼吸率值、血糖值和血氧饱和度值中的至少一者。

12.根据权利要求10所述的设备，其中所述一个或多个程序还使得所述设备：

13.根据权利要求12所述的设备，其中所述一个或多个肯定的用户反馈输入对应于注视方向、语音命令或指向手势中的一者。

14.根据权利要求10所述的方法，其中所述一个或多个目标元数据特征包括特定人物、特定地点、特定事件、特定对象或特定地标中的至少一者。

15.一种存储一个或多个程序的非暂态存储器，当由具有用于与显示设备和一个或多个输入设备通信的接口的设备的一个或多个处理器执行时，所述一个或多个程序使得所述设备：