CN1193343C

CN1193343C - 使终端用户能够控制处理内容信息的方法和装置

Info

Publication number: CN1193343C
Application number: CNB018011926A
Authority: CN
Inventors: P·J·L·A·斯维伦斯; J·米德杨斯; O·阿尔伯达; V·斯坦比斯
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-05-03
Filing date: 2001-04-26
Publication date: 2005-03-16
Anticipated expiration: 2021-04-26
Also published as: KR20020027382A; WO2001084539A1; CN1381039A; JP2003532164A; EP1281173A1

Abstract

视频或音频内容信息的播出或其它处理的话音控制使用与内容信息语义学相关的话音指令。

Description

使终端用户能够控制处理内容信息的方法和装置

本发明涉及话音控制，特别是用于通过消费者电子学(CE)设备播出内容信息的话音控制。

话音控制的设备可从所有在此引用以参考的文献中已知，例如，美国专利4,506,377；美国专利4,558,459；美国专利4,856,072；美国专利5,255,326；美国专利5,950,166。美国专利5,255,326特别指出将一种使用与微处理器相连的声音信号处理器的交互式声频***作为交互式声频控制***。作为立体声扬声器并同样作为接收麦克风运行的一对收发信机与信号处理器相连用于接收来自主要用户的话音指令。话音指令被处理以运行各种各样不同的装置，例如电视机，磁带，收音机或CD唱机，将信号提供给处理器，随后来自处理器的信号被提供给收发信机的扬声器产生所希望的声音。附加的红外传感器可用于持续不断地对主要听众的位置进行三角测量以将信号经由收发信机***返回给处理器，用于持续不断地调整声音的平衡以将声音的“甜点(sweet spot)”保持聚焦在主要听众上。附加的装置同样可由信号处理器控制以响应与存储的指令相匹配的话音指令，从信号处理器产生输出，按照口头的话音指令运行这些其它的装置。该***能够响应话音指令同时从由该***运行的任一声源中再现立体声音。

语音识别是一种技术，其中的各个方面在所有在此引用以参考的文献中被讨论，例如美国专利5,987,409；美国专利5,946,655；美国专利5,613,034；美国专利5,228,110；和美国专利5,995,930。

各种装置或应用中已知的语音控制和话音控制受限于捆绑在设备上的一套固定的指令。发明者已认识到，如果话音指令或若干话音指令与将被播出的信息内容链接，而不是与装置或平台链接，可话音控制设备的用户友谊，以及在可话音控制设备在运行使用过程中的人机工程方面得到提高。即发明者相信，CE设备的控制应是以内容为中心的，而不是以装置为中心的。

因此，在本发明的一个方面中提议，将语音指令与例如CD，DVD或固态存储器的数据载体中或上的内容信息结合起来。这些指令优选满足内容信息语义学的要求。例如，如果内容信息包括音频，例如一批歌曲，通过说出歌曲的歌名或歌曲的抒情部分可以实现选择这些歌曲中特定的一首或多首。特殊的元数据被加入CD的内容中使得该特征成为可能。该元数据是由装置或应用的话音控制器所要求词汇的典型的，但不是必须的一种表示，以使对于特别的CD和其上的乐曲的话音控制成为可能。另一方面或补充地，用户可以哼出或(试图)唱出所希望的一首乐曲的一部分以选择它用于播出。在这种意义上，见在此引用以参考的，Mark Hoffberg在99年10月5日申请的美国专利5,963,957，题目为具有标准化的乐曲主题的文献目录乐曲数据库(BIBLIOGRAPHIC MUSIC DATA BASE WITH NORMALIZEDMUSICAL THEMES)(代理人文档号PHA 23,241)。该后者专利涉及包括一乐曲数据库的信息处理***。乐曲数据库存储乐音音符的同音基准序列。该基准序列被全部标准化至相同的音阶度使得它们可被字典编辑式地存储。当经由N元查询在一串输入的乐音音符和一特别的基准序列之间找到匹配时，***提供与匹配的基准序列相关的文献目录信息。该***可同样用于将由用户哼出的输出经N元查询转换为播放指令。

在没有其它措施的情况下，例如当正在播出一首歌曲时，***的音频输出可能引起语音控制处理的不希望的激活。例如通过按压例如飞利浦电器(Philips Electronics)的通用可编程遥控器，Pronto(商标)，遥控器上的激活按钮以激活语音指令接收，经由回波相消，或通过使设备记录用户做出的特定的手势，等，该不希望的激活可被防止。如果内容信息包括视频，关键场景用若干关键字标记使得说出那些字设定从相关场景的开始处播出。或经用户话音输入与关键字的一对一映射，或经用户话音输入与内容关键字标记和它们的同义词的加标目录表的语义学映射，视频内容的关键字分布可用于辩别一定的场景。优选地，例如通过使用一定的固定指令或其部分指令例如前缀，防止出现不希望的激活。类似地，通过使处理将语音输入与所显示的或将被显示的图示对象的可控特征结合，使用图示的交互型软件应用，例如虚拟现实或视频游戏，成为可语音控制的。例如，通过让用户说出符合语义学条件的适当的单词，由例如一化身的图示对象将实现的动作成为可语音控制的或可语音选择的。这适合于允许多种控制模型的视频游戏(例如，经由控制杆的双手动输入和语音输入)，以及用于教授另一种语言或用于教授儿童对于例如有形的物体或动作的一定的概念的适当单词和表达的教育程序。语音被转换为被处理的数据以便辨别所打算的适当动作。这可经由例如将语音数据与预先确定的查找表中的项目进行语义学匹配并找到最相近匹配的候选者来实现。语音输入与所打算动作间的结合可借助注意到用户历史成为可训练的。

本发明的另一方面中，当内容从网上下载和/或播出后并被局部存储时，语音指令是从该内容派生出来的。例如，抒情部分中的关键字作为与它们相称的一段音频相关地被辨别并存储。这可通过专用的软件应用实现。在第一次播出音频内容的过程中，例如通过将话音部分与装置部分分离并分析前者，或者数字数据被分析或者可听的抒情部分被分析。由此创建的语音指令可被附加地或替代地用作满足特定内容的基本组。

在本发明的又一方面中，用户能够从与特定内容信息相称的并将被存储在用户设备的网上下载预先存在的或定制的指令以与用于能够话音控制的信息内容在语义学上有关。由此，用户可以使得他/她的被认为是家用网络资源的电子内容信息的家用文库成为全部语音驱动的。例如，用户在他/她的投币式自动电唱机和/或硬盘上有一批CD，DVD。如果内容涉及公共可得的音频或视频，服务供应者可事先为每段内容创建注释文库，并且用户可以下载与他/她的收藏有关的那些单元。CD或DVD的注释可被捆绑于唱片标识符以及其片段上。例如，由用户说出的唱片集的名称与依次能够检索并选择投币式自动电唱机中的CD或DVD的一定的标识符相链接。歌曲或场景的名称可与CD或DVD两者的标识符链接并与有关的关键结构链接。随后用户说出项目“电影”和“汽车追逐”并依次获得可得到的在其中具有涉及汽车追逐场景的电影。

在本发明的又一方面中，语音指令与作为存在于，例如作为由服务供应者提供的广播的，电子程序指南(electronic program guideEPG)中的内容链接。此外，语音界面能够选择匹配用户所说单词的特定程序或匹配用户所说单词的程序类别。

在本发明的又一方面中，由用户说出的指令经例如用户服务器或网上服务器的服务器处理，并反向发送到能够网上起动的播出设备作为指令。服务器有可得到的内容的目录以及为内容语义学表示的单词的字典。能够网上起动的设备，例如经由CD或DVD的标识符代码，或经由文件的首标，为服务器辨别内容，由此对于该内容的语音指令容易地经例如一查找表与用于控制的指示相匹配。

话音控制能够例如选择一段内容信息用于播出，或用于存储或用于快速向前直到一停止，等。同样，事先用关键字书签标识的内容可在话音控制下被浏览用于检索在关键字水平上与话音输入匹配的一定的摘录。

本发明的另一方面提议，将内容信息从一存储媒体例如CD或DVD复制到另一存储媒体上。第一存储媒体包括内容信息和如上解释的使话音控制成为可能的控制信息。优选，用于话音控制的信息是复制保护的，其结果是副本不具有控制指令。这被认为是一种支持内容信息工业的特征。如果消费者想要得到话音控制的版本的完整副本，他或她可以通过由至CD编号或DVD编号的链路辨别，从互联网上的服务器按一定的价格下载话音控制信息。这样的优点在于即使价格仅是象征性的，作者的权利也得到确认。于是，这一特征对保护内容信息是作者或他/她的受让人的知识产权的认识有贡献。

在此引用作为参考的是Mark Hoffberg和Eugene Shteyn在99年7月1日申请的美国序列号09/345,339(代理人文档号PHA23,700)题目为内容驱动的语音或音频浏览器(CONTENT-DRIVEN SPEECH-OR AUDIO-BROWSER)。该专利资料涉及搜索互联网以找到提供例如现场互联网广播的可流的(streamable)音频的资源。这些资源基于它们的文件外延被辩别并按照例如自然语言或乐曲风格被分类。用户能够浏览基于文本或乐曲输入的收藏。

在此使用的表达“话音指令”意味着指出一种可由一个或多个关键字组成的话音控制输入，但它同样可包括更冗长的语言表达。

参照附图并借助实例，进一步详细说明本发明，其中：

图1和2为本发明中***的方框图。

本发明考虑到装置或软件应用的话音控制，特别是那些使用预先录制在存储媒体上的内容的话音控制。话音指令的使用语义学上涉及，与其相关或基于，存储在存储媒体中的内容。于是指令与媒体内容的每个样本都不同。例如，对于具有作曲家或抒情作者X的乐曲的CD的可用指令与那些具有由作曲家和抒情作者Y作曲的乐曲的CD的指令是不同的。

对于一CD唱机，其操作如下。用户将演奏者Daan vanSchooneveld的CD***唱机中。CD存储乐曲和软件使用户能够经由话音控制与CD相互作用。当用户说“Mustang Danny”时，唱机开始播放Schooneveld的CD磁迹中的一首该曲名的摇滚歌曲。当用户说“leaking oil”时，唱机开始播放其抒情部分有歌词“I wept gently in therain as the gearbox was still leaking oil”的蓝调歌曲。等等。一类似的控制方案应用于带有CD驱动的一套顶盒或另一装置的话音控制。在话音指令之间可能需要可用户编程的延迟以分隔每首歌的指令。或者，特定的表达可用于用作每首歌曲指令之间的分隔器。例如，用户可说“播放两遍Mustang Danny，播放一遍漏油；”。这将被理解为歌曲“Mustang Danny”将被连续播放两遍，随后涉及“leaking oil”的歌曲将被连续播放两遍。表达“播放两遍”和“播放一遍”用作辨别每首歌曲以及在***准备接收另一话音指令之前***打算如何运作的分隔器。

投币式自动电唱机应用在PC上的话音控制说明如下。投币式自动电唱机的应用是一种考虑到将CD内容归档到PC的硬盘驱动(HDD)上的软件应用。用户已将Jos Swillens的CD“最大的打击(GreatestHits)”归档在HDD上。当用户说“Swil，Beemer”时，投币式自动电唱机开始播放归档在PC上Swillens的CD磁迹上的一首“MyBeemer fits my crewcut”。话音指令不需要仅由关键字组成而可以包括更冗长的语言表达。例如，用户可以说“从Swillens的最大的冲击开始播放，歌名有关平头(crewcut)”，***处理该话音输入以将其与使用例如目录表中合适的搜索算法可得的选项之一匹配。当用户说“Swil，always be nice to your patent attorney”，投币式自动电唱机开始播放交响乐名著“Always be nice etc。”。

用户也将Koos Middeljans的CD“最大的打击”归档在PC上。当用户说“Koos，Sweet Dommel Valley”时，投币式自动电唱机开始播放归档的CD磁迹中的一首该歌名的民歌。当用户说“Koos，Nat theLab”，归档在PC上的CD Mid的“最大的打击”的另一磁迹，投币式自动电唱机开始播放“Nat the Lab”。当用户说“Middeljans，最大的打击，随意”，投币式自动电唱机以任意次序播放该CD的磁迹。

就版权而言的内容保护是一个敏感的问题。复制保护措施是可行的并被实施的，例如DRM(数字权利管理Digital RightsManagement)。为对此做出贡献，作为与CD或DVD上语义学相关的内容信息一起提供的语音指令可以以这种方式执行，即它们不能被复制到除了唱机机载存储器的其它位置。任何至其它位置的复制将失去该特征并变得不再具有吸引力。

在另一实例中，用户经互联网下载同时带有语义学相关的控制日期的内容使得以与对投币式自动电唱机所讨论的相似的方式的话音控制的选择播出成为可能。在该实例中控制数据优选为下载的数据的整数部分。

对于投币式自动电唱机技术的背景，见在此引用以参考的，Pietervan der Meulen在99年6月4日申请的美国序列号09/326,506(代理人文档号PHA 23,417)题目为虚拟投币式自动电唱机(VIRTUALJUKEBOX)。

例如考虑到不同地理区域中语言和发音的不同，相同的内容信息可被捆绑在语音不同的话音指令组上以便于话音识别。在这种意义上，用户优选具有他或她想用于***的话音控制的语言的选择。对于存储所有可能使用的语言的指令，存储媒体的存储容量可能太小。如果用最可能被使用的语言中的一种不能从媒体得到话音指令，播出装置优选能够下载所希望的语言的等效的语音指令，藉此***在运行时间将指令变成对应的说明。在互联网上可获得专用的服务。在这种意义上，参考Adrian Turner等人在98年9月25日申请的美国序列号09/160,490(代理人文档号PHA 23,500)题目为基于用户分布的互联网起动的装置的定制升级(CUSTOMIZED UPGRADING OFINTERNET-ENABLED DEVICES BASED ON USER-PROFILESmartConnect商标)，以及Erik Ekkel等人在00年3月6日申请的美国序列号09/519,546(代理人文档号PHA US000014)题目为借助于网起动的装置在服务器个人化CE设备的配置(PERSONALIZING CEEQUIPMENT CONFIGURATION AT SERVER VIA WEB-ENABLED DEVICE)，两者均在此引用以参考。这些文档讨论了经互联网提供给CE终端用户的服务。

期望将来音频和视频内容在日益扩大的程度上通过互联网提供给终端用户。那时记录可在家中在安全的环境下完成。本地记录优选允许消费者创建他/她自己的与内容信息的特定段语义学相关的指令组。这需要一些编辑和一优选的帮助用户建立内容片段，话音输入指令和动作之间的关系或所希望的处理的特定的图形用户界面(GUI)。例如，如果内容信息没有任何注释，用户必须确定哪些片段他/她想要作为单独的项目控制，他/她想用哪些指令如何控制，在哪种指令下应对哪个片段应采用哪种动作。一旦创建，指令组可以和特定的内容一同存储在同一文件中或用唯一的标识符与特定的内容链接。

在一更为复杂的***中，语音录制覆盖任何与语音清单无关的，例如受限于词汇子集的，或只对于标准发音之外的语音录制的相关形式。细节上已作必要的修正，这同样应用于任选的声学模型(声学参照)。语言模型可任选使用，它包括对人们如何典型地与***相互作用并且说一些语句(所谓的“语言模型”)的描述，它是借助实例语句，型式或词组，借助(随机的)有限的正式语法，借助(随机的)与上下文无关的语法，或另一种语法的。语言模型可只包含任何标准的通话方式的改进。至于语音理解，***任选包括通过由典型地经语法给出的一定的单词，指令，词组，表达，应起动哪些动作的描述。***可包括一对话模型，该模型包括对***应如何对用户的输入做出反应以及***如何进入对话模式的描述。例如，在特定环境下，***可询问用于澄清，或再确认一指令等等。***可利用成形语音识别器的数据和其它数据间的关系。例如，***有一示出用户可以说什么以播出当前磁迹的显示器。

优选地，例如CD，DVD，固态(例如闪存)存储器等的存储媒体具有在起动过程中得到识别的并确认话音指令特征的可用性的位模式。确认可经由例如显示器上的弹出式屏幕或经扬声器提供的说出的预先录制的文本传达给用户。

至于媒体中语音控制软件的格式化，CD-DA具有可用于在不损失CD向后相容性的情况下添加话音控制特征的R-W通道的额外容量。引入磁迹可能不具有足够用于各种语言版本的存储空间，但数据可从磁盘下载至局部存储器。在这种情况下，每种语言必须在磁盘上仅有一次。另一方面，CD ROM具有使其易于适应所需要的磁盘上的语音控制文件的文件结构。DVD同样具有一文件结构并考虑到与CD ROM相同的解决途径。闪存，HDD等可以相同的方式处理。

图1为本发明中***100的方框图。***100包括用于播出存储在载体106上的内容信息104的播放装置102。载体106包括例如CD，DVD或固态存储器。或者，载体106包括内容信息104经互联网或另一数据网络已下载至其上的HDD。在这些实例中内容信息104以数字格式存储。如对于本领域技术人员清楚的，内容信息104可同样以模拟格式存储。装置102有一执行子***108使得终端用户可以得到内容信息104。例如，如果内容信息104包括音频，子***108包括一个或多个扬声器，而在内容信息104包括视频信息的情况下，子***108包括一显示监视器。

按照本发明，载体106包括与内容信息104在语义学上有关的控制信息110。控制信息110使得数据处理子***112能够确定用户经麦克风(未示出)的话音输入114是否与控制信息中的信息项目匹配。如果存在匹配，相关的播出模式被选择，其实例已在上面给出。如在上面音频内容播出实例中所解释的，由于高度的直觉对应，一方面，控制信息110以及另一方面，内容信息104之间的语义学关系便于用户与装置102的相互作用。优选，经局部显示器例如小LCD 116提供关于可得到的内容和/或所选择的模式的视觉反馈。

载体106可以是可一次一个地***装置102中的元件。或者，装置102包括能够从如载体106的多个载体(未示出)中或从即使实际上不同的载体中，例如CD和固态存储器中选择内容的投币式自动电唱机功能性118。

控制信息110在此示出与内容信息104一起存储或记录在载体106上。CD，DVD或闪存可于是被提供具有预先录制的话音控制应用和指令。或者控制信息110与在数据处理***112上运行的专用软件应用结合用于将话音输入114与控制信息110中可得的一个或多个项目匹配。在该后者的配置中，软件应用经另一通道而不是控制信息提供，例如经互联网或用于安装装置102的安装软盘提供。

话音控制本身是已知的，与装置的用户相互作用用于选择装置的工作方式同样是已知的。本发明在此涉及使用一种控制界面，其中的部分是与可用于播出的内容信息语义学有关的。

优选结合在本发明的***中的选择包括下面的内容。***100提供听觉或视觉反馈响应用户已输入的口头指令。例如，例如如果存在匹配，通过用预先录制的话音重复指令单词或指令话，或如果存在匹配，通过用预先录制的话音提供字“确认”，***100确认接收指令。该特征可用每个信息内容项目的相对小量的预定的指令实现。确认数据可结合在控制数据110中。如果由用户给出的话音指令不被理解，即***100对此没有识别并且在控制数据110中没有找到匹配，***100提供指出否定状态的听觉反馈。例如，***100用预先录制的话音提供“不能处理该指令”，“不能找到该艺术家”，或“不能找到这首歌”或相同意思的话。***100可给出视觉反馈用以替代，或附加于听觉反馈，例如如果***100能够处理话音输入，绿色闪烁光，而如果不能处理，则红色光。与此相同，***100优选用预先录制的或合成的话音发音，说出艺术家的姓名和选择播出的内容的歌曲的歌名或唱片集的名称。合成话音使用文本语音引擎用于该特征使得***可以使用可从下载或媒体载体得到的信息。文本语音(TTS)***将来自计算机资料(例如，字处理机资料，网页)的词汇经由扬声器转换为可听的语音。在TTS***中，优选词汇与他们的包括载体语句的语调的语音清单等一起存储。同样，作为选择，控制数据110包括向用户解释哪条指令，例如哪首歌曲的关键字可行的预先录制或合成的话音数据。预先录制或合成的话音可再次成为控制数据110的一部分。当他/她不想要***提供听觉反馈时，用户应能够将其接通或断开。

图2为带有EPG的***200的图示说明，EPG中可得内容信息被辨别并在显示监视器206上以行202和列204排列。例如，每个相应的行表示相应的TV频道而每个列表示特定的时隙。在每个特定的行列对，例如行208和列210的交点，标记或标题212被示出表示内容可从特定的频道并在特别的时隙中得到。其它类型的排列可代替使用，例如通过主题分类和时间，或按照每个频道或资源(例如在互联网上)的一个简档按用户优先级排列，等等。用户可以通过例如经由适当的用户界面(例如无线键盘或其它定向装置上的箭头键，未示出)将窗214移过EPG的栅格浏览EPG以获得落入窗214边界内EPG显示的部分。用户于是可以通过敲击或突出所显示的部分中相关的标记选择特别的内容信息。

典型地，EPG由服务供应者经互联网提供。在本发明中，用附加的使得用户与EPG相互作用的模式而不是常规的敲击或突出所希望的标记的模式成为可能的控制软件216增强EPG。控制软件216优选与EPG一同被下载，升级或刷新。控制软件216包括与为用户选择辨别EPG中程序的标记的语义学相关的控制信息218。例如，当用户将表达“电影”经由用户输入装置220输入数据处理子***时，例如经由麦克风的话音输入，EPG的栅格被整理以仅在窗214中示出按照分类“电影”可得的程序，或电影程序与在其它分类中程序不同地被图形化表示。用户随后优选同样在语音指令下浏览分类“电影”，。用户看到他/她喜欢的电影并由话音输入表达“The Magnificent Six andOkke”进入，其主题在有关航空事件的经典电影的EPG中指出。在另一实例中，用户进入“今晚”和“从八点钟开始”，由此窗214被定位于至少部分地示出，当天和从八点(8:00pm)开始的可用的程序的集合。在又一实例中，用户已辨别出显示在窗214中的EPG的一部分中有趣的程序，并说出表示程序主题的词汇进入麦克风220。随后，用户说“观看”或“记录”。表示主题的词汇被转换为适当的格式用于与控制信息218比较。当找到匹配时，控制软件216使得微处理器222能够控制调谐器224和显示监视器206或记录装置226。以这种方式，用户可以使用话音控制与EPG相互作用。

Claims

1.一种使终端用户能够控制处理内容信息的方法，该方法通过在被处理的内容信息中加入特殊的元数据，从而将语音指令与所述内容信息结合起来，其中语音指令是与内容信息语义学有关的。

2.权利要求1的方法，包括提供连同信息内容的语音控制软件。

3.权利要求1的方法，其中指令辨别内容信息用于处理。

4.权利要求1的方法，其中内容信息包括音频；而指令包括出现在音频中的单词。

5.权利要求1的方法，其中内容信息包括视频信息；而指令辨别视频中的事件或对象。

6.权利要求1的方法，其中内容信息存储在存储媒体中；并且指令存储在存储媒体上用于处理的控制。

7.权利要求1的方法，包括向终端用户提供关于语音指令的处理状态的反馈。

8.用于处理内容信息的电子装置，该装置包括：

·用于接收语音指令的语音输入端；

·用于接收包括内容信息和与内容信息在语义上相关的控制软件的存储媒体的输入端；

·用于在语音指令控制下经软件处理内容信息的数据处理器。

9.权利要求8的装置，其中数据处理器处理内容信息以响应与内容信息语义学相关的语音指令。

10.权利要求8的装置，其中存储媒体包括至少下列之一：光盘；磁盘；固态存储器。

11.权利要求8的装置，包括用于向终端用户指出话音指令的处理状态的输出端。

12.一种提供与特定内容信息的语义学有关的控制数据的方法，其中通过在被处理的内容信息中加入特殊的元数据，从而将语音指令与所述内容信息结合起来，使终端用户能够通过由控制数据支持的语音控制而控制处理特定的内容信息，其中所述语音指令是与内容信息语义学有关的。

13.权利要求12的方法，包括使用户能够经数据网络下载控制数据。

14.权利要求12的方法，其中下载的控制数据用于供特定的内容信息的副本使用。

15.权利要求12的方法，包括使用户能够经数据网络下载内容信息。

16.权利要求12的方法，其中内容信息包括一EPG，并且其中处理包括与EPG的相互作用。