CN1836282A - 音频和视频设备的语音控制 - Google Patents

音频和视频设备的语音控制 Download PDF

Info

Publication number
CN1836282A
CN1836282A CNA2004800236714A CN200480023671A CN1836282A CN 1836282 A CN1836282 A CN 1836282A CN A2004800236714 A CNA2004800236714 A CN A2004800236714A CN 200480023671 A CN200480023671 A CN 200480023671A CN 1836282 A CN1836282 A CN 1836282A
Authority
CN
China
Prior art keywords
data
medium
text data
text
mentioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2004800236714A
Other languages
English (en)
Inventor
K·卢卡斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1836282A publication Critical patent/CN1836282A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B19/00Driving, starting, stopping record carriers not specifically of filamentary or web form, or of supports therefor; Control thereof; Control of operating function ; Driving both disc and head
    • G11B19/02Control of operating function, e.g. switching from recording to reproducing

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

关于音频和/或视频数据的文本信息在一语义符/音素转换中被分配给音素,并被用作为语音识别器的词汇。

Description

音频和视频设备的语音控制
由于立法和为了提高安全性,在汽车领域的应用中使用语音识别在将来会有很大的用途。除了电话应用外,语音控制有时还被用于远程信息处理***、信息娱乐***、以及象空调设备这样的车内***。所采用的词汇取决于实际的识别器,简单地被结构化,以及通常地以命令为基础。
在此,CD设备的语音控制在目前的产品中是借助于诸如“停止”、“播放”、“暂停”等基本指令的命令来实现的。借助于标题的号码来输入待播放的标题的选择,也即例如通过“播放5”。在此,识别器可以局限于识别命令字连同一个数字。但由于用户经常不知道标题与CD上的号码之间的分配关系,所以这种方案是令人不舒适的。
基于此,本发明的任务在于,使音频和视频设备的操作更为简单、更为舒适和更为可靠。
该任务通过独立权利要求给出的本发明来解决。由从属权利要求给出优选实施方案。
据此,在语音识别方法中在存储媒体上存储多媒体数据。给所述多媒体数据分配文本数据。在一语义符/音素转换中,所述文本数据作为语义符被分配音素。于是,可以将具有其所属音素的文本数据用作为语音识别器的词汇。
由此得到一个被高度减少的并被规定用于相应音频和/或视频应用的识别器词汇,该词汇也可以由具有非常少资源的语音识别器进行处理,正如其通常出现在汽车或其它视频和/或音频设备所嵌入的语音识别方案中。
通过该方案可以例如通过“播放Waterloo”或仅仅“Waterloo”来直接输入一个标题,而用户在驾车期间无须同时还考虑正确的标题号码。特别在具有CD换碟机的音频***中,直接的访问是理想的。
多媒体数据可以是音频、视频或图像数据。存储媒体可以是音频CD、视频CD、DVD、mp3播放器、硬盘视频录像机、硬盘、光CD、软盘、USB棒、微型盘、或其它各种固定装入或可更换或便携的存储媒体。
根据一种实施方案,所述多媒体数据是音频数据,以及所述存储媒体是CD。
只要CD具有CD文本,被分配给音频数据的文本数据便作为CD文本被存储在CD上。于是该文本数据可以被直接考虑用于语义符/音素转换。
多媒体数据可以例如是MP3数据。于是所述文本数据优选地以播放列表被存储。
被分配给多媒体数据的所述文本数据也可以一般地被存储在所述存储媒体的一个包含有该多媒体数据的内容目录中。
根据一种实施方案,所述多媒体数据是视频数据。在此,所述存储媒体例如可以是DVD。
替代地或附加地,被分配给多媒体数据的所述文本数据可以由一个中央数据库调用,尤其通过因特网从因特网数据库调用。
所述文本数据优选地包括一个或多个解释器的名称和/或该文本数据所属的多媒体数据的标题。
尤其是,通过所述的方法借助于语音识别器控制一个多媒体设备。该多媒体设备可以是CD播放器、mp3播放器、CD换碟机、微型盘播放器、视频录像机、DVD播放器或类似的设备。
在另一步骤中,所述文本数据可以通过文本/语音转换而以声音被输出,使得用户预先知道它的选择可能性,尤其是关于标题和解释器的选择可能性。
一种装置,其被设置用于执行上述方法之一,该装置例如可以通过编程和设置某一数据处理设备来实现,该处理设备具有属于上述方法步骤的工具。
所述装置例如可以是尤其集成有导航***的汽车无线电、CD播放器和/或DVD播放器。
本发明的其它特征和优点由对实施例的说明给出。
在语音识别方法中,在嵌入的语音识别器中采用一种语义符/音素技术来用于以下目的:歌曲的标题名称被转换成音素序列,并作为识别器词汇被用于CD、DVD和/或MP3播放器的语音控制。这允许用户通过标题、解释器或替换地通常通过习惯的号码命名***来直接选择歌曲。
如果针对不同CD的作为词汇被处理的标题而标记在CD换碟机中的所属位置,那么该标题在语音输入时可以被识别出,并被分配给一确定的CD。该换碟机可以放入所想要的CD和播放所选择的歌曲。据此,在每个CD分别具有20首歌的5碟换碟机中的词汇量约为100个录入项。这表现为如此的词汇量,其可以用常规技术由嵌入的语音识别器覆盖。
由于歌曲标题可能以不同的语言出现,所以在把标题转换成音素序列之前需要执行语音识别,由该语音识别确定合适的音素集和正确的语音专用的转换规则。
在音频CD的情况下,歌曲标题以文本形式出现在CD文本兼容的CD上。作为在结网车辆中的替代方案,可以通过下载来提供标题列表。
于是,音频和/或视频媒体的文本数据被用作语音识别器的词汇基础。歌曲标题的直接语音选择允许一种舒适的、并较少影响驾驶者注意力的方法,以便操作车辆中的CD和MP3设备。通过采用语义符/音素技术,可以实现这种直接的语音选择,而且可以在语音操作界面的范畴内给用户提供这种选择。
所介绍的方法由于其在用户界面上的可见性而可以被容易地证实。由于明显提高了舒适性,所以剩余价值对用户是大的,而且是可以认识到的。由于与说话者无关的***长期也在汽车领域内被实现,所以作为理想的补充提供了一种语音CD和/或DVD控制。
所述方法例如可以直接被用于CD文本格式的CD。在一个音频CD上,除了原本的音乐数据外还存储有附加数据,即所谓的“子信道”。在此有8个子信道(p,q,r,s,t,u,v和w)。q子信道例如包含关于当前位置的信息。导入区占用一个特殊位置记录。该导入区是位于正常音乐数据之前的区域,并在q子信道中包含有CD的“内容表”(TOC)、也即CD的内容目录。在TOC中存储了各个音轨的开始位置。在导入的子信道r-w中,现在存储有CD文本信息,例如CD的名称、音轨的名称以及解释器。
利用该信息可以动态地为语音识别器产生一个词汇。在此,由于语义符/音素转换,所述文本数据可以被转换成识别器能理解的音素链。于是,为了操作,词汇或其一部分可以被用来控制音频和/或视频设备。

Claims (14)

1.语音识别方法,
其中在存储媒体上存储多媒体数据,
其中给所述多媒体数据分别分配文本数据,
其中给所述文本数据的语义符分配音素,
其中将具有其所属音素的文本数据用作为语音识别器的词汇。
2.如权利要求1所述的方法,其中
所述多媒体数据是音频数据,以及所述存储媒体是CD。
3.如权利要求2所述的方法,其中
被分配给音频数据的文本数据作为CD文本被存储在所述CD上。
4.如上述权利要求之一所述的方法,其中
所述多媒体数据是MP3音频数据。
5.如权利要求4所述的方法,其中
所述文本数据被存储在一个播放列表中。
6.如权利要求1所述的方法,其中
所述多媒体数据是视频数据。
7.如权利要求1所述的方法,其中
所述存储媒体是DVD。
8.如上述权利要求之一所述的方法,其中
所述文本数据以一个内容目录被存储在所述存储媒体上。
9.如上述权利要求之一所述的方法,其中
所述文本数据由一个中央数据库尤其通过因特网进行调用。
10.如上述权利要求之一所述的方法,其中
所述文本数据包括解释器的名称和/或该文本数据所属的多媒体数据的标题。
11.如上述权利要求之一所述的方法,其中
通过所述语音识别器控制一个多媒体设备。
12.如上述权利要求之一所述的方法,其中
所述文本数据至少部分地在一文本/语音转换器中被转换,并以声音被输出。
13.装置,其被设置用于执行如上述权利要求中至少一项所述的方法。
14.如权利要求1所述的装置,其特征在于,
所述装置是汽车、汽车无线电、CD播放器和/或DVD播放器。
CNA2004800236714A 2003-08-18 2004-08-12 音频和视频设备的语音控制 Pending CN1836282A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE10337823.5 2003-08-18
DE10337823A DE10337823A1 (de) 2003-08-18 2003-08-18 Sprachsteuerung von Audio- und Videogeräten

Publications (1)

Publication Number Publication Date
CN1836282A true CN1836282A (zh) 2006-09-20

Family

ID=34177661

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2004800236714A Pending CN1836282A (zh) 2003-08-18 2004-08-12 音频和视频设备的语音控制

Country Status (5)

Country Link
US (1) US20060206328A1 (zh)
EP (1) EP1563497A1 (zh)
CN (1) CN1836282A (zh)
DE (1) DE10337823A1 (zh)
WO (1) WO2005017891A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI258087B (en) * 2004-12-31 2006-07-11 Delta Electronics Inc Voice input method and system for portable device
TWI298592B (en) * 2005-11-18 2008-07-01 Primax Electronics Ltd Menu-browsing method and auxiliary-operating system of handheld electronic device
US20100217410A1 (en) * 2009-02-22 2010-08-26 Yang Pan User interface for home media system
DE102009024570A1 (de) * 2009-06-08 2010-12-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren zum Organisieren der Wiedergabe von Medienstücken
US8972267B2 (en) * 2011-04-07 2015-03-03 Sony Corporation Controlling audio video display device (AVDD) tuning using channel name
CN103187061A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车内语音对话***
CN103187056B (zh) * 2011-12-28 2018-01-12 上海博泰悦臻电子设备制造有限公司 基于车载应用的语音处理***
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US20180190257A1 (en) * 2016-12-29 2018-07-05 Shadecraft, Inc. Intelligent Umbrellas and/or Robotic Shading Systems Including Noise Cancellation or Reduction
US11145306B1 (en) 2018-10-31 2021-10-12 Ossum Technology Inc. Interactive media system using audio inputs

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3931638A1 (de) * 1989-09-22 1991-04-04 Standard Elektrik Lorenz Ag Verfahren zur sprecheradaptiven erkennung von sprache
US5617407A (en) * 1995-06-21 1997-04-01 Bareis; Monica M. Optical disk having speech recognition templates for information access
WO1997037311A1 (de) * 1996-04-02 1997-10-09 Siemens Aktiengesellschaft Anordnung zur erstellung eines digitalen wörterbuchs und verfahren zum aufbau eines digitalen wörterbuchs mit hilfe eines rechners
DE69819690T2 (de) * 1997-12-30 2004-08-12 Koninklijke Philips Electronics N.V. Spracherkennungsvorrichtung unter verwendung eines befehlslexikons
US20020048224A1 (en) * 1999-01-05 2002-04-25 Dygert Timothy W. Playback device having text display and communication with remote database of titles
US20030158737A1 (en) * 2002-02-15 2003-08-21 Csicsatka Tibor George Method and apparatus for incorporating additional audio information into audio data file identifying information

Also Published As

Publication number Publication date
US20060206328A1 (en) 2006-09-14
EP1563497A1 (de) 2005-08-17
WO2005017891A1 (de) 2005-02-24
DE10337823A1 (de) 2005-03-17

Similar Documents

Publication Publication Date Title
EP1693829B1 (en) Voice-controlled data system
EP1693830B1 (en) Voice-controlled data system
US7684991B2 (en) Digital audio file search method and apparatus using text-to-speech processing
US9805722B2 (en) Interactive speech recognition system
US7842873B2 (en) Speech-driven selection of an audio file
US9092435B2 (en) System and method for extraction of meta data from a digital media storage device for media selection in a vehicle
US7031477B1 (en) Voice-controlled system for providing digital audio content in an automobile
US7547841B2 (en) Music composition instruction system
US20090076821A1 (en) Method and apparatus to control operation of a playback device
EP1300829A1 (en) Technique for active voice recognition grammar adaptation for dynamic multimedia application
JP2005266198A (ja) 音響情報再生装置および音楽データのキーワード作成方法
CN1836282A (zh) 音频和视频设备的语音控制
JP3827058B2 (ja) 音声対話装置
EP1281173A1 (en) Voice commands depend on semantics of content information
US20040176959A1 (en) System and method for voice-enabling audio compact disc players via descriptive voice commands
EP2507792B1 (en) Vocabulary dictionary recompile for in-vehicle audio system
JP2001117581A (ja) 感情認識装置
US20070260590A1 (en) Method to Query Large Compressed Audio Databases
KR20010099450A (ko) 음악파일 재생장치
Mann et al. How to access audio files of large data bases using in-car speech dialogue systems.
US20110165541A1 (en) Reviewing a word in the playback of audio data
JP2009271258A (ja) 情報選択装置
JP2003241789A (ja) 音声認識辞書作成装置および方法
KR100472525B1 (ko) 의미적 연결구조를 이용한 통합 콘텐츠 데이터의 저장 및재생방법
EP2058799A1 (en) Method for preparing data for speech recognition and speech recognition system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication