CN112799630A

CN112799630A - 使用网络可寻址设备创建电影化的讲故事体验

Info

Publication number: CN112799630A
Application number: CN202110047650.1A
Authority: CN
Inventors: 亚历山大·罗瑟拉; 斯科特·D·朗格尔; 詹妮弗·德罗普
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-10-10
Filing date: 2017-09-29
Publication date: 2021-05-14
Anticipated expiration: 2037-09-29
Also published as: US20190158632A1; US20210329101A1; US10135950B2; US20180103122A1; EP3916538A1; CN109923515A; US11457061B2; WO2018071212A1; EP3523718A4; CN112799630B; EP3523718A1; EP3916538B1; US20230018853A1; EP3523718B1; US10999415B2

Abstract

公开了使用网络可寻址设备创建电影化的讲故事体验。提供了用于使用网络可寻址技术，创建电影化的讲故事体验的***和方法。用户通过客户端应用发送请求以从服务器设施上的故事数据库中检索故事。客户端设备从服务器设施下载故事、相应的词典和协调指令集。响应于用户开始所选故事的朗诵，客户端或服务器应用检测并且解释用户输入，并且将输入与包含在词典中并与特定协调指令相关联的有限关键词集进行比较。当应用检测到与协调指令相关联的关键词的朗诵时，应用指引相应的网络可寻址设备执行该指令。

Description

使用网络可寻址设备创建电影化的讲故事体验

本申请是分案申请，原案的申请号是201780069037.1，申请日是2017年9月29日，发明名称是“使用网络可寻址设备创建电影化的讲故事体验”。

技术领域

本公开一般涉及语音识别领域，尤其涉及检测对应于协调指令的关键词的用户输入，并且指示网络可寻址设备执行这些指令以创建电影化的讲故事体验。

背景技术

网络可寻址或“智能家居”设备是连接到网络的电子设备，其可以通过其他互联网连接的设备诸如智能电话或平板电脑来控制。近年来，这些设备已成为消费者通常从远程位置控制家中电器的便捷有效方式。消费者越来越多地将物联网(IoT)使能的设备整合到家中，允许他们从智能手机或计算机控制温度、照明、锁和其他小器具，并且允许设备通过诸如在消费者家中发现的局域网进行通信。

虽然网络可寻址设备普及，但它们主要由专注于技术的个人的特定用户群使用。许多消费者都选择将网络可寻址***用于安全、节能和节省成本的目的。到目前为止，很少有提议更广泛地应用网络可寻址技术。

发明内容

所描述的实施例使得能够将网络可寻址技术与书籍的用户讲述集成以创建电影化的讲故事体验。用户使用客户端设备上的应用以从故事数据库中选择故事并且下载故事、相关词典和协调指令。在选择故事之后，在一些实施例中，给予用户为故事创建定制智能家庭动画的选项。

如果用户选择不为故事创建自定义动画，则***使用由发布者或第三方提供的预制协调指令集来创建电影体验。当用户开始讲述所选故事时，语音识别模块经由用户客户端设备上的麦克风收听和接收输入。针对输入运行计算机模型以确定用户说出的单词是关键词的可能性。如果模型确定单词是关键词，则规则模块将关键词与规则匹配，并且检索指引至少一个网络可寻址设备执行一个或多个指定动作的相应指令。规则模块将指令发送到控制模块，控制模块查询用户的网络可寻址设备的清单以确定与指定动作相关联的设备是否包括在清单中。如果设备包括在清单中，则控制模块向设备发送指令以执行指定的动作。在检测到来自用户的输入语音中的关键词时发送指令确保了动作与故事的讲述正确同步。

如果用户选择创建自定义协调指令，则用户使用应用上的效果模块来将各种智能家庭效果分配给故事的不同部分。当用户开始所选故事的讲述并且到达用户已经分配了自定义协调指令的单词或短语时，控制模块向对应的网络可寻址设备发送指令以执行与指令相关联的动作。

一个公开的方面包括一种计算机实现的方法，包括：从客户端设备向服务器发送对故事的用户选择；从服务器接收与所选故事相关联的词典，词典包括有限数量的关键词；接收与所选故事相关联的协调指令，协调指令包括用于客户端设备指示一个或多个网络可寻址设备响应于客户端设备检测到关键词而执行至少一个动作的指令；接收用户输入，用户输入包括所选故事的口头朗诵；检测用户输入与所述关键词中的至少一个关键词之间的对应性；以及指引一个或多个网络可寻址设备响应于用于所述至少一个关键词的所述协调指令来执行至少一个动作。在实施例中，检测可以包括使用匹配算法来将至少一个关键词的音频简档与用户输入的音频简档进行匹配，并且可选地，可以包括例如基于关于用户在故事中的位置的信息，缩小匹配算法，从而减少或消除非关键词的词被错误地确定为关键词的可能性。另一公开的方面包括一种计算机***，包括包含可执行程序代码的计算机可读存储介质，可执行程序代码当被执行时，使一个或多个计算设备实现方法：从客户端设备向服务器发送对故事的用户选择；从服务器接收与所选故事相关联的词典，词典包括一个或多个关键词；接收与所选故事相关联的协调指令，协调指令包括用于客户端设备指示一个或多个网络可寻址设备响应于客户端设备检测到关键词而执行至少一个动作的指令；接收用户输入，用户输入包括所选故事的口头朗诵；检测用户输入与所述关键词中的至少一个关键词之间的对应性；以及指引一个或多个网络可寻址设备响应于用于所述至少一个关键词的所述协调指令来执行至少一个动作。其他公开的方面包括相应的计算机可读介质(其可以是非暂时性计算机可读介质，但是本发明不限于此)。该发明内容和以下描述中描述的特征和优点并非包括一切，特别地，鉴于附图、说明书和权利要求，许多附加特征和优点将是显而易见的。此外，应当注意到，说明书中使用的语言主要是出于可读性和指导目的而选择的，并且可能未被选择来描述或限制所公开的主题。

附图说明

所公开的实施例具有其他优点和特征，这些优点和特征将从详细描述和附图中更加显而易见。以下是对这些附图的简要介绍。

图1是根据实施例的示出用于使用网络可寻址技术来创建电影化的讲故事体验的***架构的框图。

图2A是示出图1中所示的客户端设备的实施例的框图。

图2B是示出图1中所示的服务器设施的实施例的框图。

图3是根据实施例的示出书、客户端应用、服务器设施和网络可寻址设备之间的交互的交互图。

图4是根据实施例的示出可用于实现电影化的讲故事环境的实体的示例计算机的框图。

具体实施方式

附图和以下描述仅以示例的方式描述了某些实施例。本领域技术人员将从以下描述中容易地认识到，在不背离本文所述的原理的情况下，可以采用本文所示的结构和方法的替代实施例。本文参考一个方面或实施方式描述的特征可以应用于任何其他方面或实施方式。

现在将详细参考若干实施例，其示例在附图中示出。注意到，只要可行，在附图中可以使用类似或相似的附图标记，并且可以指示类似或相似的功能性。附图仅出于示例的目的图示了所公开的***(和方法)的实施例。本领域技术人员将从以下描述中容易地认识到，在不背离本文所述的原理的情况下，可以采用本文所示的结构和方法的替代实施例。

图1是根据实施例的示出用于使用网络可寻址技术来创建电影化的讲故事体验的服务器设施100的***视图的框图。该***是可扩展的，以容纳使用客户端设备110与服务器设施100交互的多个用户/观众。虽然仅示出了两个客户端设备110A和110B，但是应理解到支持非常大数量(例如，数百万)客户端设备并且可以在任何时间与服务器设施100通信。

用户使用每个客户端设备110与服务器设施100通信。客户端设备110的示例包括任何类型的计算机设备，诸如移动电话、智能电话、平板电脑、个人数字助理、支持IP的视频播放器，或个人计算机(例如，桌面型、笔记本、膝上型)计算机。在其他实施例中，客户端设备110是语音激活的家用产品，诸如Google Home设备或Amazon Echo。

网络可寻址设备120也通过网络130连接到服务器设施100。网络可寻址设备120包括连接在家庭网络上并且能够经由客户端设备110远程控制的恒温器、照相机、灯、锁和其他设备。虽然仅示出了两个网络可寻址设备120A和120B，但是应当理解，支持非常大量(例如，数百万)的网络可寻址设备并且可以在任何时间与服务器设施100进行通信。在一个实施例中，网络可寻址设备120使用统一的操作***，例如Google的Brillo IoT平台，并且经由诸如Google的Weave ^TM平台的跨平台通用语言进行通信。

服务器设施100经由网络130与一个或多个客户端设备110和一个或多个网络可寻址设备120通信。网络130实现客户端设备110与服务器设施100之间、网络可寻址设备120和服务器设施100之间，以及客户端设备110和网络可寻址设备120之间的通信。在一个实施例中，网络130是因特网或将移动设备连接到因特网的移动网络，并且使用现在已知或随后开发的、使客户端设备110和网络可寻址设备120能够与服务器设施100通信并且彼此通信的标准化的网络互连通信技术和协议。在另一实施例中，网络130是云计算网络并且包括服务器设施100的一个或多个组件。客户端设备110、网络可寻址设备120和服务器设施100通过网络接口连接到网络130。

客户端设备

如图2A所示，客户端设备110包括客户端应用210和存储设施235，诸如硬盘驱动器或闪存设备，客户端设备110向其存储用户在执行任务时使用的数据。客户端设备110通常包括处理器、显示设备(或到显示设备的输出)，以及用于经由网络130耦合到服务器设施100的网络接口。

在一些实施例中，客户端设备110包括视频播放器205。视频播放器205用于观看视频流。视频播放器205可以是独立应用，或者是诸如网络浏览器的另一应用的插件。视频播放器205包括用户界面控件(以及相应的应用编程接口)，用于选择视频馈送、开始，停止和倒带视频。而且，视频播放器205可以在其用户界面中包括视频显示格式选择，其被配置为指示哪种视频显示格式(例如，二维(2D)视频或三维(3D)视频)。也可以使用其他类型的用户界面控件(例如，按钮、键盘控件)来控制视频播放器205的回放和视频格式选择功能。

客户端设备110还包括通过网络130下载的客户端应用210。在另一实施例中，客户端应用210预先加载在客户端设备110上，使得客户端设备110的用户不需要单独下载客户端应用210。在一个实施例中，当用户将客户端应用210下载到客户端设备110上时，要求用户输入关于用户的家庭或周围区域中的网络可寻址设备的信息。例如，用户可以告诉应用用户在起居室中具有智能恒温器和无线音乐***，并且在卧室中具有变色智能灯泡和无线风扇。在另一实施例中，客户端设备110上的控制模块225通过搜索使用诸如Google的Brillo***的统一操作***和诸如Google的

平台的跨平台公共语言的设备来检测特定半径内的网络可寻址设备。这避免了客户端应用要求用户输入关于可用网络可寻址设备的信息或客户端应用使得客户端设备显示允许用户输入该信息的界面的需要，从而使客户端应用更小，更更易于在客户端设备上下载并且更快地运行。在应用与移动客户端设备一起使用的情况下，这特别有利。

在本文讨论的***收集关于用户的个人信息或者可以利用个人信息的情况下，可以向用户提供控制程序或功能部件是否收集用户信息(例如，关于用户的社交网络的信息、社交动作或活动、职业、用户的偏好、用户的当前位置，或客户端设备110的特定半径内的设备)或控制是否和/或如何从内容服务器接收可能与用户更相关的内容的机会。另外，某些数据可以在存储或使用之前以一种或多种方式处理，从而移除个人可识别信息。例如，可以处理用户的身份，以便不能确定该用户的个人可识别信息，或者概括可以获得位置信息的用户的地理位置(例如，到城市、邮政编码或州级)，使得无法确定用户的特定位置。因此，用户可以控制如何收集关于用户的信息并且由内容服务器使用。

客户端应用210被用来从服务器设施100下载新的故事体验以及策划与每个故事相关联的提示和效果。客户端设备110的用户通过客户端应用210将故事从故事数据库275(图2B)下载到客户端设备110上。当用户下载故事时，在各个实施例中，与故事相关联的词典和预制协调指令集被包括在下载中，并且在一些实施例中，为用户提供选择来创建自定义协调指令集。故事、词典以及任何预制和/或自定义协调指令被存储在存储设施235中，使得客户端设备110不需要连接到服务器设施100以开始电影化的讲故事体验。在一个实施例中，下载还包括讲述故事的内容提供者的视频。

客户端应用210包括语音识别模块215、规则模块220、控制模块225和效果模块230。语音识别模块215听取所选故事的用户讲述并且经由客户端设备110上的麦克风，将该讲述接收为输入。在一个实施例中，用户输入是包含内容提供者对故事的讲述的视频的回放。

仍然参考图2A和图2B，对于存储在故事数据库275中的每个故事，相应的词典被存储在语料库词典280中，并且由故事的发布者或第三方提供的预制协调指令集被存储在故事数据库275中。词典包含故事中所有单词的列表，包括作为指定关键词的单词的子集。在各个实施例中，故事的词典还包含故事中的单词总数和每个关键词的对应数字。例如，Edgar Allen Poe的“The Tell-Tale Heart”的词典可能表明该故事包含总共2093个单词，而单词72、268、599、1362、1987和2045是关键词。在一个实施例中，每个关键词是词典中的单个单词。在另一实施例中，关键词是短语。在其他实施例中，关键词可以是单个单词和短语的组合。每个关键词与指引一个或多个网络可寻址设备响应于检测到关键词而执行至少一个动作的至少一个特定指令相关联。每个故事的具体指令作为协调指令集一起存储在故事数据库275中。例如，鬼故事的协调指令集可能包括以下内容：

表1：协调指令

在一些实施例中，用户选择创建自定义协调指令集以使故事动画化。在打开客户端应用210并且选择故事时，用户与效果模块230交互以将各种效果分配给故事的不同部分。效果模块230在客户端设备110上呈现所选故事的文本。在一些实施例中，效果模块230指示哪些单词被列为预制协调指令集中的关键词(例如，通过保持或在关键词上加下划线)。

效果模块230还在客户端设备110上显示用户可以从中选择的预制构建块的列表。例如，构建块可以包含光图案，诸如闪烁、淡入、淡出、照明效果、颜色控制等。与声音效果相关的构建块可能包括雷声、心跳、门铃、尖叫声等。与网络可寻址设备相关联的构建块可能包括智能插座的控制、温度控制和风扇控制(例如，开/关、速度控制)。

用户在从预制构建块列表中进行选择时向效果模块230提供输入。在一个实施例中，用户使用拖放交互来将构建块分配给故事中的单词。替选地，用户可以通过点击可用效果列表中的条目来选择构建块。在一些实施例中，构建块被分配给关键词。附加地或替选地，用户可以选择将构建块分配给不是预制协调指令集中的指定关键词的单词。在一个实施例中，将多个构建块分配给单个单词。在另一实施例中，单个构建块被分配给多个单词。响应于接收用户输入，效果模块230将构建块合并成自定义协调指令集，并且发送自定义协调指令以存储在存储设施235上。用户可以为每个故事创建多组自定义协调指令。

当用户打开客户端应用210并且选择故事时，效果模块230在客户端设备110上显示使用与故事相关联的预制协调指令或自定义协调指令集的选项。

如果用户选择使用预制协调指令集并且开始讲述所选故事，则语音识别模块215解释用户输入并且确定该输入是否包含故事词典中的单词，更具体地说，该输入是否包含关键词。训练语音识别模块215以通过将关键词的音频简档与用户输入匹配以检测关键词的朗诵来解释用户输入。

语音识别模块215是文本到语音***，其使用语言模型和声学模型示将用户输入转换为书面文本并且将文本与故事词典进行比较。语言模型包含单词列表及其出现在给定序列中的概率，而声学模型包含包括语言模型中的每个单词的不同声音的统计表示。使用音频录音的集合及其相应的副本来训练声学模型。对于故事词典中包括的每个单词，语音识别模块215将数百或数千个单词的迭代接收为输入，以考虑口音、方言、区域差异等的变化。随着时间的推移，发音的变化将导致识别特定单词的更大确定性并且将增加语音识别模块215能够执行检测的速度。用于训练语音识别模块的附加或替选方法在本领域中是公知的。

每个关键词的音频简档与语料库词典280中的故事词典一起存储。在一个实施例中，语音识别模块215不执行用户输入的完整语音到文本分析。相反，语音识别模块215采用匹配算法以在用户讲述故事时，将故事的关键词的音频简档与用户输入的音频简档相匹配。替选地，语音识别模块215执行完整的语音到文本分析，并且将讲述的文本与关键词进行比较，以确定用户输入是否包含关键词。

语音到文本引擎的适当示例包括Google Cloud Speech、Google Web Speech和Android Speech。可替选的语音到文本引擎可以适于根据本文公开的教导进行操作。在任一实施例中，如果语音识别模块215基于对故事中用户的位置的时间理解来缩小匹配算法，则改善语音识别模块215的检测，如下所述。

在另一实施例中，语音识别模块215基于用户已阅读的单词的数量、关键词的位置以及故事中的单词的总数来检测故事中用户所处的点。语音识别模块215从语料库词典280中检索故事的词典，并且对包含在用户输入中的单词的数量进行计数。当语音识别模块215达到对应于关键词的编号单词时，语音识别模块215将输入分类为关键词的匹配。在一些实施例中，用户在完成故事之前退出应用，并且语音识别模块215保存用户的位置，使得当用户恢复讲述时，语音识别模块215检测用户在故事中的位置。如果用户从故事的开头而不是他先前离开的地方恢复讲述，则语音识别模块215检测到用户输入不对应于预期位置并且使用匹配算法来将用户输入的音频简档与词典中的单词的音频简档进行匹配以确定用户的位置。

当用户从故事数据库275中选择故事时，语音识别模块215从语料库词典280中检索相应的词典，并且用户输入的识别被限于词典中包含的单词。基于对故事的用户选择来限制可应用的词典显著地增加了语音识别模块215将准确地解释用户输入并且增加语音识别模块215操作的速度的概率。

响应于接收用户输入，语音识别模块215针对该输入运行计算机模型以确定指示用户输入对应于关键词的概率的分数。高于阈值的最高得分关键词由语音识别模块215指定为用户输入的匹配。然后，语音识别模块215将关键词发送到规则模块220以进行分析。

如果用户选择使用自定义协调指令集，则语音识别模块215解释用户输入并且确定该输入是否包含故事词典中的单词，更具体地，该输入是否包含用户指定自定义协调指令的单词或短语。语音识别模块215以与上文关于预制协调指令集的描述相同的方式执行用户输入的解释。

在将用户输入解释为存储在故事词典中的单词之后，语音识别模块215将解释提供给规则模块220以进行处理。规则模块220协调与每个故事相关联的提示和效果。响应于从语音识别模块225接收输出，规则模块220访问并分析预制或自定义协调指令以确定对应于所检测的关键词的至少一个特定网络可寻址设备指令。

然后，规则模块220将对应于关键词的至少一个协调指令发送到控制模块225，以便与网络可寻址设备120进行通信。

控制模块225从规则模块220接收协调指令，并且指示网络可寻址设备120执行与关键词相对应的动作。在一个实施例中，该指令是在控制模块225向网络可寻址设备110提供指令之后立即执行动作。附加或替选地，该指令可以是在故事中稍后的点处执行动作或在故事的过程中多次执行一个动作。

控制模块225将所接收的关键词的协调指令与如由用户输入或控制模块225的检测所确定的用户家或周围区域中的网络可寻址设备的列表进行比较。如果协调指令包含对应于在客户端设备110的指定半径内的网络可寻址设备的指令，控制模块225指示网络可寻址设备执行该指令。例如，如果协调指令要求智能灯变蓝，则控制模块225在确定智能灯存在于客户端设备的指定半径内时发送指令。在一个实施例中，控制模块225经由诸如Google的Weave^TM平台的通信平台与网络可寻址设备120通信。如果协调指令包含对应于不在客户端设备110的某一半径内的网络可寻址设备的指令，则控制模块225在一个实施例中跳过该指令。

例如，假设用户从故事数据库275中选择故事“The Tell-Tale Heart”。下载到用户的客户端设备110上包括故事文件、包含故事中的单词和关键词的列表的词典以及与关键词对应的预制协调指令集。如果用户选择不使用自定义协调指令集，则当客户端设备110的用户开始大声朗读故事时，语音识别模块215接收输入并且应用匹配算法以确定该输入是否对应关键词。在一些实施例中，语音识别模块215基于对故事中用户的位置的时间理解来缩小匹配算法，如上所述。基于匹配算法的结果，语音识别模型215确定指示该输入对应于关键词的概率的分数，并且选择高于阈值的最高得分关键词匹配来作为用户输入的匹配。然后，语音识别模块215将关键词发送到规则模块220，规则模块220将关键词与协调指令进行比较，并且将相应的协调指令发送到控制模块225，以便与网络可寻址设备120进行通信。基于对用户在故事中的位置的理解缩小匹配算法消除或减少用户阅读的单词在其实际上不是关键词时被错误地解释为关键词的可能性，因此避免了如果当动作是不期望时而被执行导致的资源浪费。

例如，用于The Tell-Tale Heart的预制协调指令集可以包括当用户说出关键词“黑暗”时房间中的灯应该熄灭的指令或者当用户说出“敲打”时房间里的音响***应该发出响亮的敲打噪声的指令。在其他实施例中，同一故事中的不同关键词触发相同指令或一个关键词触发多个动作。在又一实施例中，关键词触发网络可寻址设备120采取在句子、段落或整个故事的过程中发展的动作。例如，Tell-Tale Heart的协调指令可以包括当用户说出关键词“敲打”时房间内的音响***开始产生缓慢而安静的敲打噪音、随着故事的进展而变得更快更响亮的指令。如果例如协调指令包括当用户说出关键词“冷”时恒温器降低房间内的温度的指令，但是在客户端设备110的指定半径内没有智能恒温器，控制模块225将跳过该指令。

在一个实施例中，可以在服务器设施100上执行归属于客户端应用210的一些功能。如果需要比能够在客户端设备110上执行的更大的处理，则通过网络130将请求发送到服务器设施100以在服务器应用250上执行。附加或替选地，服务器应用250可以属于客户端应用120的一些或全部任务，如下所述。

客户端设备110还包括存储设施23，其存储通过服务器应用250下载到客户端设备110上的用户选择的故事。存储设施235还存储与所选的故事相关联的协调指令和词典以及内容提供者讲述故事的视频。当客户端设备110的用户打开应用以启动电影化的讲故事体验时，客户端应用210从存储设施235检索故事和相关信息。

服务器设施

图2B是用于使用网络可寻址技术来创建电影化的讲故事体验的服务器设施100的框图。如图2B所示，服务器设施100包括服务器应用250、视频服务器270、故事数据库275和语料库词典280。其他常规特征诸如防火墙、负载平衡器、应用服务器、故障转移服务器、站点管理工具等等未示出以更清楚地示出该***的特征。用于实现该***的合适的服务器设施100的示例包括YouTube^TM和Google Video^TM网站；其他视频托管站点也是已知的，并且可以适于根据本文公开的教导进行操作。应当理解到，术语“网站”表示提供内容的任何***和方法，并不旨在限于支持经由因特网或HTTP协议提供的内容的***。各种服务器通常被实现，无论是作为单个软件或硬件还是作为多个软件或硬件，并且可以经由服务器应用250耦合到网络130。通常，在一个实施例中描述为在服务器侧上执行的功能如果合适，在其他实施例中，也可以在客户端执行。

与客户端应用210类似，服务器应用250包括语音识别模块255、规则模块260、控制模块265和效果模块270。在一个实施例中，服务器应用250接收用户对视频的查询。响应于用户查询，服务器应用250从故事数据库275访问故事和相关的协调指令并且从语料库词典280访问词典。在一个实施例中，服务器应用250便于将故事、协调指令和词典下载到客户端设备110上。在另一实施例中，故事、协调指令和词典在电影化的讲故事体验期间仍然存储在服务器设施100上，并且服务器应用250执行上述属于客户端应用2的任务。在又一实施例中，由客户端应用210和服务器应用250同时执行电影化的讲故事体验的创建。

视频服务器270从内容提供者接收上传的媒体内容，并且允许在客户端设备110上查看内容。内容可以经由因特网从个人计算机、通过蜂窝网络从电话或PDA，或由本领域的技术人员已知的通过网络130传送数据的其他手段上传到视频服务器270。可以以类似的方式从视频服务器270下载内容；在一个实施例中，媒体内容被提供为下载到客户端设备110的文件；在替选实施例中，媒体内容被流式传输到客户端设备110。视频服务器270接收媒体内容的手段不需要与将其传送到客户端设备110的手段相匹配。例如，内容提供者可以经由个人计算机上的浏览器上传视频，而客户端设备110可以将该视频视为发送到PDA的流。还要注意，视频服务器270本身可以用作内容提供者。

故事数据库275存储由其各自的内容所有者提供的故事和相关联的元数据。故事文件具有与每个文件相关联的元数据，诸如故事ID、作者、标题、标签、流派和长度。

故事数据库275还存储与每个故事相关联的、指示在电影化的讲故事体验中使用网络可寻址设备120的预制协调指令。例如，假设父亲正在向儿子读关于一条小船穿越大海的故事。协调指令可以提供当语音识别模块215检测到关键词“平静”或“安静”时，房间里的智能灯应该发出蓝绿色。随着故事的进展，天空渐渐变暗。当父亲读到关键词“风暴”时，房间里的智能音箱会从平静的音乐和海洋声音切换到不祥的配乐和大风。最后，在检测到关键词“闪电”和“撞击”的组合时，服务器应用250指示房间中的智能灯闪烁黄色并且扬声器产生雷霆拍击。

对于故事数据库275中的每个故事，语料库词典280存储包含故事中使用的单词的词典。语音识别模块215被训练为识别每个故事的有限数量的关键词，如上结合图1所述。限制适用的词典增加了语音识别模块215将准确地解释故事的用户输入，增加执行识别的速度，和/或消除或减少用户阅读的单词被错误地解释为关键词的可能性的概率。在一些实施例中，还通过基于对用户在故事中的位置的时间理解来缩小匹配算法来改进识别速度和准确度，使得可能单词的词典基于该位置。

交互图

图3是示出用于利用网络可寻址技术来创建电影化的讲故事体验的示例过程的交互图。在所显示的实施例中，在客户端应用210上执行电影体验的创建。在其他实施例中，该过程发生在服务器设施100上或在客户端应用210和服务器设施100两者上。

客户端设备110的用户打开客户端应用210并且与服务器设施100上的服务器应用250交互以从故事数据库275中选择(302)故事。服务器应用250访问来自故事数据库275的故事和预制协调指令集以及来自语料库词典280的词典。客户端设备110从服务器设施100下载(304)故事、预制协调指令和词典。在一个实施例中，下载包括内容提供者讲述所选故事的视频。在另一实施例中，视频服务器270将视频流式传输到客户端设备110。

客户端应用210在客户端设备110上显示创建自定义协调指令集的选项。在一些实施例中，用户分配与光图案、声音效果和设备控件相关联的预制构建块，以对故事的各个部分进行动画处理并且创建自定义协调指令。在其他实施例中，用户选择不创建自定义协调指令，而是使用由发布者或第三方提供的预制协调指令集。

客户端应用210检测(306)用户对所选故事的讲述。在一个实施例中，用户大声地阅读存储在存储设施235中的所下载的故事文件。在另一实施例中，讲述包括用户阅读与客户端设备110分开的故事的实体版本(例如，书籍、杂志、另一客户端设备等)。在又一实施例中，讲述包括内容提供者讲述故事的视频文件的回放。

客户端应用210的各种组件分析(308)该讲述并且指示网络可寻址设备120响应于检测到关键词的朗诵而执行动作。语音识别模块215使用语音到文本技术来将用户输入解释为对应于关键词，并且将解释提供给规则模块220以进行处理。用于执行语音到文本的技术是广泛可用的，并且实现者可以选择适当的方法来执行该功能。在用户已经创建了自定义协调指令的实施例中，用户输入的识别以相同的方式进行。

规则模块220访问来自存储设施235的预制和自定义协调指令，并且将协调指令与所接收的关键词进行比较以确定适用的指令。然后，规则模块220将适用的指令传送到控制模块225，控制模块225确定相应的网络可寻址设备120是否位于客户端设备110的指定半径内。如果控制模块225确定网络可寻址设备120位于指定的半径内，则控制模块225指示网络可寻址设备120执行与该指令相关联的至少一个动作(310)。在一个实施例中，指令指引一个网络可寻址设备120执行一个动作。在其他实施例中，指令指引多个网络可寻址设备120执行动作或指引一个网络可寻址设备120执行多个动作。在312处，网络可寻址设备120执行该指令。

客户端110和服务器设施100均使用计算机来实现。图4是根据一个实施例的示出可用于实现电影化的讲故事环境的实体的示例计算机400的框图。示例计算机400具有足够的存储器、处理能力、网络连接带宽和其他计算资源，以实现如本文所述的电影化的讲故事体验。

计算机400包括耦合到芯片组404的至少一个处理器402(例如，中央处理单元、图形处理单元)。芯片组404包括存储器控制器集线器420和输入/输出(I/O)控制器集线器422。存储器406和图形适配器412耦合到存储器控制器集线器420，并且显示器418耦合到图形适配器412。存储设备408、键盘410、指示设备414和网络适配器416耦合到I/O控制器集线器422。计算机400的其他实施例具有不同的架构。

存储设备408是非暂时性计算机可读存储介质，诸如硬盘驱动器、光盘只读存储器(CD-ROM)、DVD或固态存储器设备。存储器406保存由处理器402使用的指令和数据。处理器402可以包括具有执行指令的一个或多个内核的一个或多个处理器402。指示设备414是鼠标、触敏屏或其他类型的指示设备，并且在一些情况下与键盘410组合使用以将数据输入到计算机400中。图形适配器412在显示器418上显示媒体和其他图像以及信息。网络适配器416将计算机400耦合到一个或多个计算机网络(例如，网络130)。

计算机400适于执行用于提供本文描述的功能，包括呈现媒体和/或元数据生成的计算机程序模块。如本文所使用的，术语“模块”指的是用于提供指定功能的计算机程序逻辑。因此，模块可以用硬件、固件和/或软件实现。在实现服务器设施100的计算机400的一个实施例中，诸如服务器应用250和视频服务器270的程序模块存储在存储设备408上、加载到存储器406中，并且由处理器402执行。

由电影化的讲故事环境的实体使用的计算机400的类型可以根据实施例和实体所需的处理能力而变化。例如，客户端设备110是智能电话、平板电脑、膝上型电脑或桌面型计算机。在其他实施例中，客户端设备110是语音激活的家庭产品，诸如Google Home设备或Amazon Echo。作为另一示例，服务器设施100可以包括一起工作以提供本文描述的功能的多个刀片服务器。计算机400可以包含一些组件的副本或者可以缺少上文所述的一些组件(例如，键盘410、图形适配器412、指示设备414、显示器418)。例如，服务器设施100可以在单个计算机400或通过诸如服务器场的网络彼此通信的多个计算机400中运行。

已经关于各种实施例特别详细地描述了本发明，并且本领域技术人员将理解到，本发明可以在其他实施例中实施。此外，本领域技术人员将理解到本公开的以下方面。首先，组件的特定命名、术语的大写、属性、数据结构或任何其他编程或结构方面不是强制性的或重要的，并且实现本发明或其特征的机制可以具有不同的名称、格式或协议。其次，***可以经由硬件和软件的组合来实现，如所述，或者完全在硬件元件中实现。第三，本文所述的各个***组件之间的特定功能划分仅仅是示例性的，而不是强制性的；由单个***组件执行的功能可以替代地由多个组件执行，以及由多个组件执行的功能可以替代地由单个组件执行。

以上描述的一些部分根据对信息的操作的算法和符号表示来描述本发明。数据处理领域的技术人员使用这些算法描述和表示来最有效地将他们工作的实质传达给本领域其他技术人员。这些操作虽然在功能上、计算上或逻辑上描述，但应理解为由计算机程序或等效电路、微代码等实现。此外，也已经证明在不失一般性的情况下，将这些操作安排称为模块有时也很方便。所述的操作及其相关模块可以体现在软件、固件或硬件中。

另外，用于描述各种量、数据值和计算的术语被理解为与适当的物理量相关联，并且仅仅是应用于这些量的便利标签。除非另外具体陈述为从上文的论述显而易见，否则应认识到，在本说明书全文中，利用诸如“处理”或“计算”或“推算”或“确定”等术语进行的论述表示计算机***或类似电子计算设备的动作或过程，该计算机***或类似电子计算设备操作和变换在计算机***存储器或寄存器或其它这类信息存储、传输或显示设备内被表示为物理(电子)量的数据。

本文呈现的算法和显示不固有地与任何特定计算机或其他装置相关。各种通用***也可以与根据本文的教导的程序一起使用，或者可以证明构造更专用的装置以执行所需的方法步骤是方便的。从上面的描述中可以看出各种这些***所需的结构。另外，不参考任何特定编程语言描述本发明。应认识到，可以使用各种编程语言来实现如本文所述的本发明的教导，并且提供对特定语言的任何参考以用于公开本发明的实现和最佳模式。

最后，应当注意到，说明书中使用的语言主要是出于可读性和指导目的而选择的，并且可能未被选择来描绘或限制本发明的主题。因此，本发明的公开内容旨在示例性而非限制在下述权利要求中阐述的本发明的范围。

Claims

1.一种计算机实现的方法，包括：

经由客户端设备上的用户界面接收对故事的用户选择，所述故事将被朗诵为具有声音效果的书籍的口头讲述，所述声音效果提供所选故事的动画；

从服务器获得(i)与所选故事相关联的词典，所述词典包括有限数量的关键词和指示每个关键词在所选故事内的位置的数据，以及(ii)标识与所选故事相关联的动作的信息，其中所标识的动作中的至少一个动作是响应于在所选故事的口头朗诵期间所述客户端设备检测到所述有限数量的关键词中的至少一个关键词来播放具有声音效果的音频内容，所述声音效果使由所述至少一个关键词所描述的事件动画化；

接收用户输入以启动对所选故事的口头朗诵；

在所选故事的口头朗诵期间检测所述至少一个关键词，其中所述至少一个关键词中的每一个是基于下述各项而被检测的：与所选故事相关联的所述词典、来自正在被口头朗诵的所选故事中的一个或多个单词、以及相应一个或多个单词在所选故事内的位置；和

响应于在所选故事的口头朗诵期间检测到所述至少一个关键词，由处理设备执行所述至少一个动作，其中，所述至少一个动作包括播放具有所述声音效果的所述音频内容，所述声音效果使由所选故事内的所述至少一个关键词所描述的所述事件动画化。

2.根据权利要求1所述的计算机实现的方法，其中，所述客户端设备是语音激活的家庭助理设备。

3.根据权利要求1所述的计算机实现的方法，其中，所述词典还包括所选故事中的单词总数，其中，指示每个关键词在所选故事中的所述位置的数据是由与在所述单词总数中的相应关键词相关联的单词计数来表示，并且其中检测所述至少一个关键词还包括：

向所述服务器发送定义所选故事的所述口头朗诵的数据，所发送的数据包括相应的口头朗诵的单词在所选故事中的位置，其中每个位置由对应的单词数表示；和

从所述服务器接收在定义所选故事的口头朗诵的数据与所述至少一个关键词之间的对应关系。

4.根据权利要求1所述的计算机实现的方法，其中，所述检测包括：使用匹配算法来将所述至少一个关键词的音频简档与所述用户输入的音频简档进行匹配。

5.根据权利要求1所述的计算机实现的方法，其中，所述口头朗诵包括所述故事的录制讲述的回放，所述录制讲述是响应于对所述故事的所述用户选择而从所述服务器接收的。

6.根据权利要求1所述的计算机实现的方法，其中，所述口头朗诵是由所述客户端设备的用户进行的所选故事的讲述，并且其中，经由所述客户端设备的麦克风来接收所选故事的所述讲述。

7.根据权利要求1所述的计算机实现的方法，其中，在所述故事中的多个点处执行所述至少一个动作，并且其中，由所述至少一个动作所提供的所述声音效果的声音特性跨越所述故事中的所述多个点而变化。

8.一种计算机***，包括：

存储器；和

耦合到所述存储器的处理设备，所述处理设备用于：

接收用户输入以启动对所选故事的口头朗诵；

响应于在所选故事的口头朗诵期间检测到所述至少一个关键词，执行所述至少一个动作，其中，所述至少一个动作包括播放具有所述声音效果的所述音频内容，所述声音效果使由所选故事内的所述至少一个关键词所描述的所述事件动画化。

9.根据权利要求8所述的***，其中，所述客户端设备是语音激活的家庭助理设备。

10.根据权利要求8所述的***，其中，所述词典还包括所选故事中的单词总数，其中，指示每个关键词在所选故事中的所述位置的数据是由与在所述单词总数中的相应关键词相关联的单词计数来表示，并且其中所述处理设备进一步用于：

11.根据权利要求8所述的***，其中，为了检测所述至少一个关键词，所述处理设备还用于：

使用匹配算法来将所述至少一个关键词的音频简档与所述用户输入的音频简档进行匹配。

12.根据权利要求8所述的***，其中，所述口头朗诵包括所述故事的录制讲述的回放，所述录制讲述是响应于对所述故事的所述用户选择而从所述服务器接收的。

13.根据权利要求8所述的***，其中，所述口头朗诵是由所述客户端设备的用户进行的所选故事的讲述，并且其中，经由所述客户端设备的麦克风来接收所选故事的所述讲述。

14.根据权利要求8所述的***，其中，在所述故事中的多个点处执行所述至少一个动作，并且其中，由所述至少一个动作所提供的所述声音效果的声音特性跨越所述故事中的所述多个点而变化。

15.一种存储计算机可执行指令的非暂时性计算机可读介质，所述计算机可执行指令响应于执行而使处理设备执行操作，所述操作包括：

接收用户输入以启动对所选故事的口头朗诵；

16.根据权利要求15所述的非暂时性计算机可读介质，其中，所述客户端设备是语音激活的家庭助理设备。

17.根据权利要求15所述的非暂时性计算机可读介质，其中，所述词典还包括所选故事中的单词总数，其中，指示每个关键词在所选故事中的所述位置的数据是由与在所述单词总数中的相应关键词相关联的单词计数来表示，并且其中检测所述至少一个关键词还包括：

从所述服务器接收定义所选故事的口头朗诵的数据与所述至少一个关键词之间的对应关系。

18.根据权利要求15所述的非暂时性计算机可读介质，其中，所述检测包括：使用匹配算法来将所述至少一个关键词的音频简档与所述用户输入的音频简档进行匹配。

19.根据权利要求15所述的非暂时性计算机可读介质，其中，所述口头朗诵包括所述故事的录制讲述的回放，所述录制讲述是响应于对所述故事的所述用户选择而从所述服务器接收的。

20.根据权利要求15所述的非暂时性计算机可读介质，其中，所述口头朗诵是由所述客户端设备的用户进行的所选故事的讲述，并且其中，经由所述客户端设备的麦克风来接收所选故事的所述讲述。