CN1216137A - 一种训练语音识别***的方法和实践该方法的装置特别是手提电话设备 - Google Patents
一种训练语音识别***的方法和实践该方法的装置特别是手提电话设备 Download PDFInfo
- Publication number
- CN1216137A CN1216137A CN97193828A CN97193828A CN1216137A CN 1216137 A CN1216137 A CN 1216137A CN 97193828 A CN97193828 A CN 97193828A CN 97193828 A CN97193828 A CN 97193828A CN 1216137 A CN1216137 A CN 1216137A
- Authority
- CN
- China
- Prior art keywords
- speech
- item
- speech items
- coded system
- items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000003860 storage Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 206010013082 Discomfort Diseases 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- WABPQHHGFIMREM-UHFFFAOYSA-N lead(0) Chemical compound [Pb] WABPQHHGFIMREM-UHFFFAOYSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephone Function (AREA)
- Mobile Radio Communication Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
为对多项编码***训练语音识别,执行如下步骤:由用户个人提出一语音项,并认定其在编码***中的特征。在查出的特征的控制下该语音项被***该编码***中。这些步骤被重复直到达到编码***的充分条件为止。特别地,认定确定在实际提出的语音项和所有已在该编码***中的项之间的相似性,其中与一个别储存项的过度相似性产生一应急过程。这意味着提供给用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替***实际给出的语音项之间的选择。
Description
发明的背景
本发明涉及对多项编码***训练一语音识别***的方法。所说的方法包括下列步骤:
-由用户个人提出一语音项;
-认定在所说编码***中所说被提出语音项的特征;
-在所查到的特征的控制下,将所说被提出语音项***该编码***中;
-重复这些步骤,直到达到该编码***的充分条件。
语音识别已成为一个商业上的热门的课目。它寻求在高度复杂的专业***中,也在基本消费装置和装置中都有应用。后者的个别例子是手提电话;某些这样装置是可受语音控制的,而语音代表数字;如像接通、停止、结束、保持这样的标准电话用语,以及进而有关的词和短语。其他可适用的语音项可以是个人的姓名、公司名称,以及如像老板、妻子和秘书这样的词,它们能加快或简化拨号。当然,相同的词汇在其他语言中也有应用。已发现,如此基本不受约束的专用语的使用特别会产生很多混淆。例如,某些名词会有互相类似性。并且,某些名词发音像标准用语,即使拼写时不同。例如,wife(妻子)很难同five(5)相匹别,荷兰语的词Acht或Agt(8)既用作一姓氏也用作一个村庄的名字。此外,混淆也出现交叉语言中。例如,
one(英语,1)-wann(德语,何时?)
sept(法语,7)-set(英语,设置)
huit(法语,8)-wie(德语,如何?)
dix(法语,10)-this(英语,这个)
因此,已认识到一种需要,这种需要就是对一种混淆概率保持为最小的可控方式维持储存的编码***而言,要给出所讨论的***的实际性能。欧洲专利申请EP 601876披露了一个***,其中一个会引起混淆的新短语被阻止储存。
发明的概要
本发明已认识到早期的***太不灵活,因此本发明的目的之一是以保持灵活性又使混淆的可能性最小的方式来管理储存的数据库。现在相应地,本发明以所说的断然确定实际提出的语言项和所有已在编码***中的项之间的相似性为特征。其中,同一个别储存项过度的相似性产生一应急过程,该过程提供给所说用户个人一个选择。这个选择就是要不忽略实际的语音项,或要不以删除该个别储存项为代价代之***实际提出的语音项。
本发明也涉及包括用于对多项编码***训练语音识别***的装置的电话设备。该电话设备还包括:
-为接收由用户个人提出的语音项的输入装置;
-在所说的编码***中对所说的被提出语音项进行特征认定装置;
-为在由所说的特征认定装置查出的特征控制下将所说的语音项***到编码***中的***装置;
-为重复这些步骤直到编码***的充分条件达到为止的重复装置;
-电话功能装置,具有由所说的语音识别***的输出馈送的控制输入装置,以在非训练状态下根据已接收到的语音项接收已识别的控制数据。
这种电话设备的特征为,所说的区别性认定装置被安排为确定实际给出项和所有已在编码***中的项之间的相似性。其中,与一个别储存项的不适当相似性产生一应急过程,该过程提供给用户个人一种,在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替***实际给出的语音项之间的选择。
自然而然,声控电话机已寻求到在按钮拨号不方便的状况下的用法,如在照明不充分的条件下;或用户具有仅一只手空间着,或甚至需要两手空间的装置。本发明的其他便利方面被列举在相关的权利要求中。
附图的简要说明
本发明的这些和其他方面以及优点将参考优选实施例的详细披露,特别是参考如下附图再被详细地讨论。这些图表示:
图1手提电话的方框图;
图2本方法的流程图;
图3A-3C例举各种相似性配置。
优选实施例的详细说明
图1是手提电话的方框图,一般如欧洲专利EP 494526B1中所披露的。该图有包括接收路径和发射路径的装置3,两路径都同天线转换器30耦合。接受路径包含级联的可调谐射频滤波器31、混频器32、可转换中频滤波器33、检波器34、时分多路存取(TDMA)控制器35、语音编码译码器36和扬声器37。发射路径包含级联的传声器27、语音编码译码器36、TDMA控制器35、调制器38、偏置振荡器39、混频器40和功率放大器41。微处理器42提供控制电话3的功能。各种通常特性,例如使得调谐到一具体频率通道的综合器43的控制,控制TDMA的控制器35;扫描小键盘22;以及控制直观显示器21,未在这里做更详细地说明,这样的功能本身在本专业中已相当了解。包括非易失存储部分45和易失存储部分46的存储器44被联接到微处理器42。非易失存储部分45包含一电话功能程序。此外,该装置还包括电源引线48和49,它们与可更换电池组51互连,给该装置供电。作为寓意,仅微处理器42的供电被示出。
图2是根据本发明的方法的流程图。在框50,装置的训练过程被开始。例如,在手提电话中,这要求任何进行的呼叫已被终止。接着,包含语音识别程序的训练应用程序,例如通过一相关的控制按钮(未在图1中示出),被开始。语音识别可以为与用户有关的或与用户无关的应用来训练。在框52,第一语音项被输入,它可以代表单个词或一串分开的词;此外,一手工输入被送入,它表示输入项的含意,例如,这是否是缩位拨号的标志。为简便起见,没考虑用于将语音连接到特定电话功能方面的具体过程。在方框54中,语音项被分析和模型化。例如,装置可以依次请求3个训练例。如果模型化发信号通知非O.K.属性,则***返回到方框52。如果模型化为O.K.,则在方框58语音项被同所有在装置的语音数据库中的适当储存项比较。这种比较可按照各种在本专业中已知的方法完成。这些方法如在下列文献中所介绍:美国专利序号07/860,199(PHD 89158)、美国专利序号08/425,305(PHD 91136)、美国专利序号08/312,495(PHD 91137),美国专利序号08/563,853(PHD91138)、美国专利序号08/203,105(PHD 93034)和美国专利序号08/587,190,全部提供给现在的受让人。每次这样的比较将产生一个相似性指示项。这个指示项可以是一标量,或者是以多于一维定义的量。在方框60,这些相似性被评定,并且如果适用,一些临界的相似性被选作进一步考虑。在方框62,任何过度的相似性被估计:某些太接近的相似性被判定为过度的。如果并非过度的,在方框74,新项有足够的特征,并被***到语音数据库中。因此,根据相继的接收有关的语音项,语音项能够被识别和转换成基础数据。在方框70,检测这是否是最后一个被输入的项。结束由击键、时间推移或任何其他适当的方法来给出信号。如果是这样的话,则***运行到方框72,并终止训练。换言之,一个新的语音项能够在方框52被输入。
如果在方框62发现任何不适当的相似性,则***运行到方框64,并给用户个人提供2个或更多个彼此非常相像的语音项间的选择。在方框66,***提供给用户个人替换或不替换先前的项的选择。如果替换,在方框68中旧的项被替换。如果不替换,在方框76新的项被忽略。在两者的情况下,***都进行到方框70。
图3A-3C例举各种相似性配置。在所有的3个图中,有2个先前语音项A和B。它们被表示在一虚拟空间中。该空间表示各种距离或相似性,大的距离意指小的相似性,反之亦然。在这里,为教化目的,经常量化距离的复数用2维平面内的几何距离表示。新提出的语音项用C表示。在图3A中,C和A或B之间的距离足以不出现过度的相似性。所以,C可以被***。在图3B中,C接近A,但离B足够远。这意味着,用户有在库中或是选择A,或是选择C,但不能两者都选择。在图3C中,在C和A、B两者均很相似,所以用户可以在或A和B都保持或两者中择一之间作选择,而对C单独进行选择。在某些情况下,当用于拨号的数字也以语音的形式被输入时,删除被储存语音项的子***,如在手提电话应用中的“0”到“9”的数字,可以被阻止。注意某个相似性可以依赖另一相似性,所以前者可以以一种隐含的方式被确定。
Claims (4)
1.一种用于对多项编码***的训练语音识别***的方法,所说的方法包括下列步骤:
-由用户个人给出一语音项;
-认定所说的给出语音项在所说的编码***中的区别性;
-在所查到的区别性的控制下,***所说的提出的语音项到该编码***中;
-重复这些步骤直到达到编码***的充分条件为止,
该方法的特征为,所说的认定确定在实际给出的语音项和所有已在编码***中的项之间的相似性,其中同一个别储存项的过度相似性产生应急过程,其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别已储存项为大代价情况下交替***该实际提出的语音项之间的选择。
2.按权利要求1中的一种方法,进一步地限制所说的编码***,其中所说的相似性是相对于所有的已储存的项来确定的,但所说的删除对于已储存语音项的特定的一小部分是被阻止的。
3.一种用于对多项编码***的训练语音识别***的装置,包括:
-用于接收用户个人给出的语音项的输入装置;
-在所说的编码***中的所说的给出语音项的区别性认定装置;
-用于在由所说的区别性认定装置发现的区别性的控制下将所说的提出语音项***到编码***中的***装置;
-用于重复这些步骤直到达到编码***的充分条件为止的重复控制装置,
-该装置的特征为,所说的特征认定装置确定实际提出的语音项和所有已在编码***中的项之间的相似性,其中与一个别储存项的过度相似产生一应急过程,其提供给用户个人在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替***实际给出的项之间的选择。
4.一种包含用于对多项编码***的训练语音识别***的装置的电话设备,包括:
-用于接收由用户个人给出的语音项的输入装置;
-在所说的编码***中的所说的给出语音项的区别性认定装置;
-用于在由所说的区别性认定装置发现的区别性的控制下将所说的提出语音项***到编码***中的***装置;
-用于重复这些步骤直到达到编码***的充分条件为止的重复控制装置,
-电话功能装置,具有由所说的语音识别***的输出馈送的控制输入装置,以在非训练状态下根据已接收到的语音项接收已识别的控制数据,
该电话设备的特征为,所说的区别性认定装置被安排为确定实际给出的语音项和所有已在编码***中的项之间的相似性,其中与一个别储存项的过度相似性产生一应急过程,其提供给所说的用户个人一种在忽略实际给出的语音项和在删除该个别储存项为大代价情况下交替***实际给出的语音项之间的选择。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP96402881.5 | 1996-12-24 | ||
EP96402881 | 1996-12-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1216137A true CN1216137A (zh) | 1999-05-05 |
Family
ID=8225364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN97193828A Pending CN1216137A (zh) | 1996-12-24 | 1997-12-08 | 一种训练语音识别***的方法和实践该方法的装置特别是手提电话设备 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6078883A (zh) |
EP (1) | EP0920692B1 (zh) |
JP (1) | JP2000506633A (zh) |
KR (1) | KR19990087167A (zh) |
CN (1) | CN1216137A (zh) |
DE (1) | DE69720224T2 (zh) |
WO (1) | WO1998028733A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002029618A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation (A Corporation Of Delaware) | A method and apparatus for determining text passage similarity |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6374221B1 (en) | 1999-06-22 | 2002-04-16 | Lucent Technologies Inc. | Automatic retraining of a speech recognizer while using reliable transcripts |
DE10011178A1 (de) * | 2000-03-08 | 2001-09-13 | Siemens Ag | Verfahren zum sprachgesteuerten Initieren von in einem Gerät ausführbaren Aktionen durch einen begrenzten Benutzerkreis |
US8589156B2 (en) * | 2004-07-12 | 2013-11-19 | Hewlett-Packard Development Company, L.P. | Allocation of speech recognition tasks and combination of results thereof |
US20070055520A1 (en) * | 2005-08-31 | 2007-03-08 | Microsoft Corporation | Incorporation of speech engine training into interactive user tutorial |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
US4644107A (en) * | 1984-10-26 | 1987-02-17 | Ttc | Voice-controlled telephone using visual display |
US4783803A (en) * | 1985-11-12 | 1988-11-08 | Dragon Systems, Inc. | Speech recognition apparatus and method |
CA1311059C (en) * | 1986-03-25 | 1992-12-01 | Bruce Allen Dautrich | Speaker-trained speech recognizer having the capability of detecting confusingly similar vocabulary words |
GB2251763B (en) * | 1991-01-11 | 1995-06-21 | Technophone Ltd | Telephone apparatus with calling line identification |
AU4678593A (en) * | 1992-07-17 | 1994-02-14 | Voice Powered Technology International, Inc. | Voice recognition apparatus and method |
US5452397A (en) * | 1992-12-11 | 1995-09-19 | Texas Instruments Incorporated | Method and system for preventing entry of confusingly similar phases in a voice recognition system vocabulary list |
AU682380B2 (en) * | 1993-07-13 | 1997-10-02 | Theodore Austin Bordeaux | Multi-language speech recognition system |
CA2180392C (en) * | 1995-07-31 | 2001-02-13 | Paul Wesley Cohrs | User selectable multiple threshold criteria for voice recognition |
US5806029A (en) * | 1995-09-15 | 1998-09-08 | At&T Corp | Signal conditioned minimum error rate training for continuous speech recognition |
US5842161A (en) * | 1996-06-25 | 1998-11-24 | Lucent Technologies Inc. | Telecommunications instrument employing variable criteria speech recognition |
US5842164A (en) * | 1996-10-21 | 1998-11-24 | Batl Software Systems Ltd. | Dynamic pattern recognition system |
US5960397A (en) * | 1997-05-27 | 1999-09-28 | At&T Corp | System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition |
US5963902A (en) * | 1997-07-30 | 1999-10-05 | Nynex Science & Technology, Inc. | Methods and apparatus for decreasing the size of generated models trained for automatic pattern recognition |
US5950158A (en) * | 1997-07-30 | 1999-09-07 | Nynex Science And Technology, Inc. | Methods and apparatus for decreasing the size of pattern recognition models by pruning low-scoring models from generated sets of models |
-
1997
- 1997-12-08 CN CN97193828A patent/CN1216137A/zh active Pending
- 1997-12-08 WO PCT/IB1997/001545 patent/WO1998028733A1/en not_active Application Discontinuation
- 1997-12-08 DE DE69720224T patent/DE69720224T2/de not_active Expired - Fee Related
- 1997-12-08 EP EP97913396A patent/EP0920692B1/en not_active Expired - Lifetime
- 1997-12-08 JP JP10528588A patent/JP2000506633A/ja active Pending
- 1997-12-08 KR KR1019980706561A patent/KR19990087167A/ko not_active Application Discontinuation
- 1997-12-17 US US08/992,288 patent/US6078883A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002029618A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation (A Corporation Of Delaware) | A method and apparatus for determining text passage similarity |
US8650025B2 (en) | 2000-09-30 | 2014-02-11 | Intel Corporation | Method and apparatus for determining text passage similarity |
Also Published As
Publication number | Publication date |
---|---|
US6078883A (en) | 2000-06-20 |
WO1998028733A1 (en) | 1998-07-02 |
JP2000506633A (ja) | 2000-05-30 |
KR19990087167A (ko) | 1999-12-15 |
DE69720224T2 (de) | 2003-12-04 |
EP0920692A1 (en) | 1999-06-09 |
EP0920692B1 (en) | 2003-03-26 |
DE69720224D1 (de) | 2003-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5615296A (en) | Continuous speech recognition and voice response system and method to enable conversational dialogues with microprocessors | |
CN1130688C (zh) | 基于新字建模的语音识别方法和装置 | |
CN100524463C (zh) | 使用预编程的语音特征的语音转换器 | |
US5530950A (en) | Audio data processing | |
KR100299408B1 (ko) | 음성의고속코딩을위한심도우선대수코드북검색 | |
US5983177A (en) | Method and apparatus for obtaining transcriptions from multiple training utterances | |
CN1424711A (zh) | 基于约束条件的语音识别***和方法 | |
EP0602296A1 (en) | Adaptive method for generating field dependant models for intelligent systems | |
WO2003042973A1 (en) | Method for compressing dictionary data | |
US6253173B1 (en) | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors | |
CA2292959A1 (en) | System and method for developing interactive speech applications | |
CN1345510A (zh) | 产生供便携式电话使用的数字串的***与方法 | |
CN101686286A (zh) | 一种具有全语音服务的自动业务流程实现方法及*** | |
US6674372B1 (en) | Chinese character input method using numeric keys and apparatus thereof | |
CN111445903B (zh) | 企业名称识别方法及装置 | |
CN112131359A (zh) | 一种基于图形化编排智能策略的意图识别方法及电子设备 | |
US20020026312A1 (en) | Method for entering characters | |
CN1731511A (zh) | 用于对多语言的姓名进行语音识别的方法和*** | |
CN1238513A (zh) | 语音识别方法 | |
CN1216137A (zh) | 一种训练语音识别***的方法和实践该方法的装置特别是手提电话设备 | |
EP0680032B1 (en) | Quantization of input vectors with and without rearrangement of vector elements of a candidate vector | |
CN1165889C (zh) | 话音拨号的方法和*** | |
US6728676B1 (en) | Using speech recognition to improve efficiency of an inventory task | |
US20080103775A1 (en) | Voice Recognition Method Comprising A Temporal Marker Insertion Step And Corresponding System | |
US5987412A (en) | Synthesising speech by converting phonemes to digital waveforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: THIOLON FRANCE CO., LTD. Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD. Effective date: 20030709 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20030709 Address after: le mans Applicant after: Serlon Address before: Holland Ian Deho Finn Applicant before: Koninklike Philips Electronics N. V. |
|
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |