CN1836282A

CN1836282A - 音频和视频设备的语音控制

Info

Publication number: CN1836282A
Application number: CNA2004800236714A
Authority: CN
Inventors: K·卢卡斯
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-08-18
Filing date: 2004-08-12
Publication date: 2006-09-20
Also published as: US20060206328A1; EP1563497A1; WO2005017891A1; DE10337823A1

Abstract

关于音频和/或视频数据的文本信息在一语义符/音素转换中被分配给音素，并被用作为语音识别器的词汇。

Description

音频和视频设备的语音控制

由于立法和为了提高安全性，在汽车领域的应用中使用语音识别在将来会有很大的用途。除了电话应用外，语音控制有时还被用于远程信息处理***、信息娱乐***、以及象空调设备这样的车内***。所采用的词汇取决于实际的识别器，简单地被结构化，以及通常地以命令为基础。

在此，CD设备的语音控制在目前的产品中是借助于诸如“停止”、“播放”、“暂停”等基本指令的命令来实现的。借助于标题的号码来输入待播放的标题的选择，也即例如通过“播放5”。在此，识别器可以局限于识别命令字连同一个数字。但由于用户经常不知道标题与CD上的号码之间的分配关系，所以这种方案是令人不舒适的。

基于此，本发明的任务在于，使音频和视频设备的操作更为简单、更为舒适和更为可靠。

该任务通过独立权利要求给出的本发明来解决。由从属权利要求给出优选实施方案。

据此，在语音识别方法中在存储媒体上存储多媒体数据。给所述多媒体数据分配文本数据。在一语义符/音素转换中，所述文本数据作为语义符被分配音素。于是，可以将具有其所属音素的文本数据用作为语音识别器的词汇。

由此得到一个被高度减少的并被规定用于相应音频和/或视频应用的识别器词汇，该词汇也可以由具有非常少资源的语音识别器进行处理，正如其通常出现在汽车或其它视频和/或音频设备所嵌入的语音识别方案中。

通过该方案可以例如通过“播放Waterloo”或仅仅“Waterloo”来直接输入一个标题，而用户在驾车期间无须同时还考虑正确的标题号码。特别在具有CD换碟机的音频***中，直接的访问是理想的。

多媒体数据可以是音频、视频或图像数据。存储媒体可以是音频CD、视频CD、DVD、mp3播放器、硬盘视频录像机、硬盘、光CD、软盘、USB棒、微型盘、或其它各种固定装入或可更换或便携的存储媒体。

根据一种实施方案，所述多媒体数据是音频数据，以及所述存储媒体是CD。

只要CD具有CD文本，被分配给音频数据的文本数据便作为CD文本被存储在CD上。于是该文本数据可以被直接考虑用于语义符/音素转换。

多媒体数据可以例如是MP3数据。于是所述文本数据优选地以播放列表被存储。

被分配给多媒体数据的所述文本数据也可以一般地被存储在所述存储媒体的一个包含有该多媒体数据的内容目录中。

根据一种实施方案，所述多媒体数据是视频数据。在此，所述存储媒体例如可以是DVD。

替代地或附加地，被分配给多媒体数据的所述文本数据可以由一个中央数据库调用，尤其通过因特网从因特网数据库调用。

所述文本数据优选地包括一个或多个解释器的名称和/或该文本数据所属的多媒体数据的标题。

尤其是，通过所述的方法借助于语音识别器控制一个多媒体设备。该多媒体设备可以是CD播放器、mp3播放器、CD换碟机、微型盘播放器、视频录像机、DVD播放器或类似的设备。

在另一步骤中，所述文本数据可以通过文本/语音转换而以声音被输出，使得用户预先知道它的选择可能性，尤其是关于标题和解释器的选择可能性。

一种装置，其被设置用于执行上述方法之一，该装置例如可以通过编程和设置某一数据处理设备来实现，该处理设备具有属于上述方法步骤的工具。

所述装置例如可以是尤其集成有导航***的汽车无线电、CD播放器和/或DVD播放器。

本发明的其它特征和优点由对实施例的说明给出。

在语音识别方法中，在嵌入的语音识别器中采用一种语义符/音素技术来用于以下目的：歌曲的标题名称被转换成音素序列，并作为识别器词汇被用于CD、DVD和/或MP3播放器的语音控制。这允许用户通过标题、解释器或替换地通常通过习惯的号码命名***来直接选择歌曲。

如果针对不同CD的作为词汇被处理的标题而标记在CD换碟机中的所属位置，那么该标题在语音输入时可以被识别出，并被分配给一确定的CD。该换碟机可以放入所想要的CD和播放所选择的歌曲。据此，在每个CD分别具有20首歌的5碟换碟机中的词汇量约为100个录入项。这表现为如此的词汇量，其可以用常规技术由嵌入的语音识别器覆盖。

由于歌曲标题可能以不同的语言出现，所以在把标题转换成音素序列之前需要执行语音识别，由该语音识别确定合适的音素集和正确的语音专用的转换规则。

在音频CD的情况下，歌曲标题以文本形式出现在CD文本兼容的CD上。作为在结网车辆中的替代方案，可以通过下载来提供标题列表。

于是，音频和/或视频媒体的文本数据被用作语音识别器的词汇基础。歌曲标题的直接语音选择允许一种舒适的、并较少影响驾驶者注意力的方法，以便操作车辆中的CD和MP3设备。通过采用语义符/音素技术，可以实现这种直接的语音选择，而且可以在语音操作界面的范畴内给用户提供这种选择。

所介绍的方法由于其在用户界面上的可见性而可以被容易地证实。由于明显提高了舒适性，所以剩余价值对用户是大的，而且是可以认识到的。由于与说话者无关的***长期也在汽车领域内被实现，所以作为理想的补充提供了一种语音CD和/或DVD控制。

所述方法例如可以直接被用于CD文本格式的CD。在一个音频CD上，除了原本的音乐数据外还存储有附加数据，即所谓的“子信道”。在此有8个子信道(p，q，r，s，t，u，v和w)。q子信道例如包含关于当前位置的信息。导入区占用一个特殊位置记录。该导入区是位于正常音乐数据之前的区域，并在q子信道中包含有CD的“内容表”(TOC)、也即CD的内容目录。在TOC中存储了各个音轨的开始位置。在导入的子信道r-w中，现在存储有CD文本信息，例如CD的名称、音轨的名称以及解释器。

利用该信息可以动态地为语音识别器产生一个词汇。在此，由于语义符/音素转换，所述文本数据可以被转换成识别器能理解的音素链。于是，为了操作，词汇或其一部分可以被用来控制音频和/或视频设备。

Claims

1.语音识别方法，

其中在存储媒体上存储多媒体数据，

其中给所述多媒体数据分别分配文本数据，

其中给所述文本数据的语义符分配音素，

其中将具有其所属音素的文本数据用作为语音识别器的词汇。

2.如权利要求1所述的方法，其中

所述多媒体数据是音频数据，以及所述存储媒体是CD。

3.如权利要求2所述的方法，其中

被分配给音频数据的文本数据作为CD文本被存储在所述CD上。

4.如上述权利要求之一所述的方法，其中

所述多媒体数据是MP3音频数据。

5.如权利要求4所述的方法，其中

所述文本数据被存储在一个播放列表中。

6.如权利要求1所述的方法，其中

所述多媒体数据是视频数据。

7.如权利要求1所述的方法，其中

所述存储媒体是DVD。

8.如上述权利要求之一所述的方法，其中

所述文本数据以一个内容目录被存储在所述存储媒体上。

9.如上述权利要求之一所述的方法，其中

所述文本数据由一个中央数据库尤其通过因特网进行调用。

10.如上述权利要求之一所述的方法，其中

所述文本数据包括解释器的名称和/或该文本数据所属的多媒体数据的标题。

11.如上述权利要求之一所述的方法，其中

通过所述语音识别器控制一个多媒体设备。

12.如上述权利要求之一所述的方法，其中

所述文本数据至少部分地在一文本/语音转换器中被转换，并以声音被输出。

13.装置，其被设置用于执行如上述权利要求中至少一项所述的方法。

14.如权利要求1所述的装置，其特征在于，

所述装置是汽车、汽车无线电、CD播放器和/或DVD播放器。