CN1394331A - 具有替换命令的语音识别方法 - Google Patents

具有替换命令的语音识别方法 Download PDF

Info

Publication number
CN1394331A
CN1394331A CN01803464.0A CN01803464A CN1394331A CN 1394331 A CN1394331 A CN 1394331A CN 01803464 A CN01803464 A CN 01803464A CN 1394331 A CN1394331 A CN 1394331A
Authority
CN
China
Prior art keywords
text message
word
identification
oral
oral order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN01803464.0A
Other languages
English (en)
Other versions
CN1193342C (zh
Inventor
H·乌特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1394331A publication Critical patent/CN1394331A/zh
Application granted granted Critical
Publication of CN1193342C publication Critical patent/CN1193342C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

一种具有文本编辑方法的语音识别方法(4),所述文本编辑方法利用在第二文本信息(TI2)中识别的四个单词的口述命令(SB)对在第一文本信息(TI1)中错误识别的文本信息部分(TW)进行编辑,语音识别方法(4)包括下属步骤:接收语音信息(SI)且对第一文本信息(TI1)与第二文本信息(TI2)进行识别;检查位于第二文本信息(TI2)中第一位置的单词是否匹配四个单词的口述命令(SB)的第一口述命令部分(SB1),且检查位于第二文本信息(TI2)中第三或更远位置的单词是否匹配四个单词的口述命令(SB)的第三口述命令部分(SB3),此时,如果检查得到肯定的结果,则执行文本编辑方法的下一步;检查第一文本信息(TI1)是否包含错误识别的信息部分(TW),错误识别的信息部分(TW)的特征为第二文本信息(TI2)中位于第一口述命令部分(SB1)与第三口述命令部分(SB3)之间的第二口述命令部分(SB2),此时,如果检查得到肯定的结果,则执行文本编辑方法的下一步;用新的文本信息部分(TN)对第一文本信息(TI1)中的错误识别的信息部分(TW)进行替换,新的文本信息部分(TN)在第二文本信息(TI2)中包含作为四个单词的口述命令(SB)中位于第三口述命令部分(SB3)之后的第四口述命令部分(SB4)。

Description

具有替换命令的语音识别方法
本发明涉及一种语音识别方法,其具有通过口述命令对错误识别的文本信息部分进行编辑的文本编辑方法。
本发明还涉及一种计算机程序产品,其可直接装入到数字计算机的内存储器且包括软件代码段。
US-A-5794189披露了这样的语音识别方法和这样的计算机程序产品,且其通过连接麦克风与监视器的计算机进行处理。已知的语音识别方法具有短期文本编辑方法,通过该方法可借助于口述命令对单词进行编辑,该单词位于识别文本的最后识别句子中,被语音识别方法错误识别了。
当使用者注意到通过语音识别方法最后识别的句子中存在错误识别的单词时,他发出一个单音节口述命令“oops(唬)”声音进入麦克风。随后,打开了语音识别方法的编辑框,其中含有存在错误的句子。然后使用者可以再次说出被错误识别的句子,之后通过短期文本编辑方法分析在识别错误句子期间确定的语音分析信息,设法在错误句子中找出被错误识别的单词,并且用重新口述和识别的单词将其替换。当使用者用另一个单音节口述命令确认该替换时,重新口述的单词替换了识别文本的错误句子中被错误识别的单词且编辑框关闭。
已经证实利用已知的短期编辑方法的缺点是,使用者不得不在各个不同的时刻依照正确次序且根据监视器上显示的信息,说出两个不同的单个单词命令(oops;accept)(唬;接受)以及替换单词从而进入麦克风,这过程相当复杂。而且,已经证实利用已知的短期编辑方法的缺点是,在错误句子中被错误识别的单词的发现不具有充分的可靠性。
已知的语音识别方法还包含有文件文本编辑方法,在运行文件的整个文本中编辑单词。可以对错误地或正确地得到识别的单词以及通过计算机击键输入的单词进行编辑。当使用者想要改变文本中的一个单词的时候,他说出“select(选择)”外加他想要改变的单词进入计算机的麦克风,这样展现了一种用于标记单词的双单词口述命令。而后已知的文件文本编辑方法生成整个文件文本的树结构且在按照该树结构中检索由口述单词识别的文本。
当计算机选择并标记文本中的单词且将其显示在监视器上时,使用者可以用单个的口述命令确认或者取消该选择。当使用者确认该选择并随后说出新的单词进入麦克风时,新的单词替换了标记的单词。
已经证实已知的文件编辑方法的缺点是,使用者不得不在几个时间点依照正确的次序且根据监视器上显示的信息,说出两个不同的口述命令(“select”;“accept”)(对应译文:“选择”;“接受”)以及替换单词外加新的单词以输入麦克风,这过程相当复杂。该已知的文件编辑方法进一步的缺点是,要被替换的单词的发现不具有充分的可靠性。
本发明的一个目的是消除上述问题且提供一种与第一段所述一致的改进的语音识别方法和一种与第二段所述一致的改进的计算机程序产品。为了实现这个目的,将依照本发明的特征提供在这样的一个语音识别方法中,以致该语音识别方法的特征是如下文所述的方法。
一种语音识别方法,其具有利用在第二文本信息中识别的四个单词的口述命令对第一文本信息的错误识别的文本信息部分进行编辑的文本编辑方法,该语音识别方法包括下述步骤:
·接受语音信息和对第一文本信息与第二文本信息的识别;
·检查在第二文本信息中的第一位置的单词是否匹配四单词口述
  命令的第一口述命令部分,并且检查在第二文本信息中第三位置
  或更远位置的单词是否匹配四单词口述命令的第三口述命令部
  分,此时如果检查得到肯定的结果,则执行文本编辑方法的下一
  步骤;
·检查第一文本信息是否包含有错误识别的文本信息部分,其特征
  表现为在第二文本信息中第一口述命令部分和第三口述命令部
  分之间的第二口述命令部分,此时如果检查得到肯定的结果,则
  执行文本编辑方法的下一步骤;
·用新的文本信息部分替换第一文本信息的错误识别文本信息部
  分,其中新的文本信息部分作为四单词口述命令中位于第三口述
  命令部分之后的第四口述命令部分包含在第二文本信息中。
作为这个发明目的的实现方案,这样的计算机程序产品具有依照本发明的特有特征,计算机程序产品的特征描述见下文。
计算机程序产品,其可直接装入到数字计算机的内存储器且包括软件代码段,当该产品在计算机上运行时计算机执行如权利要求1所述语音识别方法的步骤。
结果,使用者可通过只说出四个单词的口述命令一次来实现用新的单词替换错误识别的单词。例如,使用者可说出“replace test by text(用text替换test)”来实现用单词“text”替换错误识别的单词“test”。此外,在对错误识别的文本信息进行替换之前,可执行重新计算,按该计算确定具有最大正确识别概率的第一文本信息,同时使用了对第一文本信息识别期间确定的语音分析信息和包含在口述命令中的附加信息。包含在口述命令中的信息还包括发音极其相近的错误识别单词“test”和正确识别单词“text”的发音信息。语音识别方法利用这个附加信息因此而具有对第一文本信息重新计算的非常精确的语音信息的处理方法,其结果是重新计算期间确定的编辑信息非常可靠而能达到使用者期望的替换目的。
在下述情形下其具有很大的优点:口述命令不是针对整个文件,而是仅针对第一文本信息的文本部分,该部分刚好显示在监视器上。当口述命令导致一个错误替换时,可以非常简便地取消掉,例如通过口述命令“undo(取消)”。
已经证实利用权利要求1所述语音识别方法便于提供权利要求2所述的方法。获得的优点是,口述期间使用者可以在纠正错误识别的单词之后立即继续进行口述,而不需要给出用于光标定位的口述命令。
已经证实利用权利要求1所述语音识别方法便于提供权利要求3所述的方法。其优点是,对错误识别的单词进行替换的口述命令,该命令可以非常方便地说出,但仍然包含了替换所需的所有信息。
依照权利要求4中请求的方法,为了识别第二文本信息,为每个口述命令部分确定了多个选项文本信息部分。随后,对于第二文本信息,为每个口述命令部分选定选项文本信息部分,用以获取对第二文本信息正确识别的最大的总概率,以整体识别第二文本信息。当识别一个四单词口述命令时,可能会出现文本信息部分没有包含在第二文本信息中的情况,而其他的选项文本信息部分之一表征显示在监视器上的被错误识别单词。
依照权利要求4的方法获得这样的优点,当包含在第二文本信息中的第二口述命令部分的选项文本信息部分不能在第一文本信息中找到的时候,也将不包含在第二文本信息中的第二口述命令的选项文本信息部分作为错误识别的文本信息部分在第一文本信息中进行检索。这进一步提高了在第一文本信息中找到错误识别文本信息部分的可靠性。
依照权利要求5的方法获得这样的优点,如果在口述命令中作为第四口述命令部分说出来的新的文本信息部分被错误识别了—就象在第一文本信息中的错误识别的文本信息部分一样—则将具有对第二文本信息正确识别的第二大的总概率的并且在第四口述命令单词之后识别的一个选项文本信息部分定义为新的文本信息部分。结果,进一步提高了用新的文本信息部分对识别错误的文本信息部分进行替换的可靠性。
本发明的这些以及其他方面将结合下面所述的实施例来阐述并通过这些实施例变得清楚。
在附图中:
图1以方框图的形式概略性地显示了计算机,其执行具有文本编辑方法的语音识别方法,
图2显示了具有文本编辑方法的语音识别方法的流程图,其通过图1所示的计算机执行,
图3显示了四个单词语音命令的结构和作为四个单词语音命令被计算机识别的第二文本信息,
图4显示了口述信息部分和由计算机识别作为口述信息部分选项的第二文本信息的文本信息部分。
图1显示了连接有麦克风2与监视器3的计算机1。将存储在CD-ROM上的语音识别软件装入到计算机1的主存储器,其软件构成了计算机程序产品。计算机1还包括处理器、硬盘以及用于处理语音识别软件的其它装置,所述其它装置都是现在惯常使用的,因而没有在图1中进一步显示。
当语音识别软件装入到计算机1的主存储器时,计算机1执行具有文本编辑方法的语音识别方法,用以利用四单词口述命令SB对错误识别的文本信息部分TW进行编辑。该具有文本编辑方法的语音识别方法具有图2中显示的流程4中的步骤。
当计算机1的使用者讲话声音进入麦克风2的时候,包含有语音信息SI的模拟麦克风信号MS通过麦克风2进入计算机1。计算机1包括模数转换器5,其可应用于模拟麦克风信号MS。模数转换器5用于将模拟麦克风信号MS转化为数字信号,且用于生成数字声频数据AD,其包含在麦克风信号MS中包含的语音信息SI。
计算机1包括识别装置6、语境存储器7以及语音模型存储器8。在语境存储器7中存储音素信息PI与文本信息部分TTI。音素信息PI包含一系列用于使声音具有特色的音素。当使用者说出作为语音信息SI的存储在语境存储器7中的音素信息PI时,文本信息部分TTI包含由一个或多个待通过语音识别方法识别的单词组成的文本。当执行语音识别方法时,计算机1只可以识别存储在语境存储器7中的单词且将它们生成为文本信息TI。
在语音模型存储器8中存储关于语言中惯用的一串单词的概率信息WI。例如,单词序列“this is a test”的总概率要大于单词序列“this his a test”。
可通过模数转换器5将声频数据AD送给识别装置6。将包含在声频数据AD中的语音信息SI细分为指定其音素信息PI的口述信息部分STI,所述细分发生在识别装置6执行语音识别方法的时候。在语境存储器7中搜索口述信息部分STI的音素信息PI,之后确定指定给这些音素信息PI的文本信息部分TTI且存储在语境存储器7中。
假如搜索的音素信息PI没有在语境存储器7中找到,则将确定存储在语境存储器7中且与搜索的音素信息PI相近的多个音素信息元素PI并且存储指定到这些音素信息元素PI的文本信息部分TTI。将为口述信息部分STI的音素信息PI确定的文本信息部分TTI列入选项表,作为口述命令部分STI的选项文本信息部分ATI。在图4中显示了这样的选项表AT。
在确定选项文本信息部分ATI之后,识别装置6计算存储在语音模型存储器8中的概率信息WI,且确定选项文本信息部分ATI作为具有最大正确识别总概率的识别文本信息TI的排序。
识别装置6使用久为人知的通常称作隐马尔可夫模型来识别指定给接收的语音信息SI的文本信息TI。在本发明中不再进一步讨论对指定给接收的语音信息SI的文本信息TI的识别。
计算机还包括用于存储语音分析信息SAI的语音分析存储装置9,当执行语音识别方法时由识别装置6确定SAI。除了其它信息之外,语音分析信息SAI还包含口述信息部分STI以及相联系的音素信息PI,以及列入选项表AT的选项文本信息部分ATI。本领域专业人员通常将这样的语音分析信息SAI称为“格子”(lattice)。
计算机1还包括替换装置10,通过识别装置6识别的文本信息TI加到其上,文本信息TI的信息形成第一文本信息TI1或第二文本信息TI2。替换装置10用于检查识别的文本信息TI是否具有四单词口述命令结构SB=“REPLACE A WITH B(用B替换A)”(其如图3所示)。四单词口述命令SB提供用于替换被错误识别的单词,将结合图1中所示具体装置的应用实施例对其进行进一步说明。
口述命令SB的第一个单词构成了第一口述命令部分SB1=“REPLACE”,而口述命令SB的第三个或另一个单词构成了第三口述命令部分SB3=“WITH”,其中象这样的第一口述命令部分SB1与第三口述命令部分SB3在口述命令部分SB中起重要作用。在口述命令SB中的第二个单词以及,如有必要的话还有第三个与第四个单词构成了第二口述命令部分SB2,其用字母“A”代表。第二口述命令部分SB2表征在监视器1上显示的第一文本信息TI1中的错误识别的文本信息部分TW。跟随在第三口述命令部分SB3=“WITH”后面的单词构成了第四口述命令部分SB4,其用字母“B”代表。第四口述命令部分SB4表征替换在第一文本信息TI1中的错误识别的文本信息部分TW的新的文本信息部分TN。这个也将结合应用实施例来进行更加详尽地说明。
当替换装置10没有在识别装置6识别的文本信息TI中发现四单词口述命令SB结构的时候,替换装置10用于将该文本信息TI生成为未修改的第一文本信息TI1。相反,当替换装置10在该文本信息TI中发现了四单词口述命令SB结构的时候,替换装置10用于检查在识别的第一文本信息TI1中是否包含错误识别的文本信息部分TF,TF由第二口述命令部分SB2表示。假设这个检查的结果是:口述命令的错误识别的文本信息部分TF作为错误识别的文本信息部分TW包含在第一文本信息TI1中,则替换装置10将检测信息DI送到识别装置6,该检测信息DI表征错误识别的文本信息部分TW在第一文本信息TI1的位置。
当识别装置6接收到检测信息DI时,其执行重算,其中导致对在第一文本信息TI1中最接近错误识别的单词TW的单词的识别的语音分析信息SAI,和导致对第二口述命令部分SB2的单词TF与第四口述命令部分SB4的单词TN的识别的语音分析信息SAI,两者被共同处理。通过这种方式,使用者说了两遍但却在第一文本信息中被错误识别的单词TN的声音信息是可利用的,而且在第一文本信息中错误识别的单词TW的正确发音的声音信息也是可利用的。识别装置6重算的结果是,识别装置6将编辑信息EI送到替换装置10,该信息表征要在第一文本信息TI1中执行的替换。下文中将结合应用实施例对此作进一步说明。
计算机1还包括编辑装置11,其用于处理第一文本信息TI1和送到编辑装置11的编辑信息EI。编辑装置11对第一文本信息TI1进行处理且将这个信息作为待显示的模拟监视器信号DS送到监视器3。编辑装置11在接收到编辑信息EI后用新的文本信息部分TN来替换第一文本信息TI1中错误识别的文本信息部分TW,其中TN表示为第四口述命令部分SB4所表征。下文中将结合应用实施例对此作进一步说明。
计算机1的键盘12可将输入信息II传送给编辑装置11,计算机1的用户可以通过该信息输入文本且对监视器3上显示的第一文本信息TI1进行输入并编辑。编辑装置11具有编辑程序功能,在计算机1上运行,该程序例如可用软件程序“Word for Windows”形成。
在下文中,结合图1中所示计算机1的应用实施例来描述具有文本编辑方法的语音识别方法的优点。依照该应用实施例,假定计算机1的使用者将语音识别程序装入计算机1的主内存中,然后在图2中流程4的块13开始执行语音识别方法。
在块14识别装置6检查计算机1的使用者是否说话而声音进入麦克风2以及语音信息SI是否已经传送到识别装置6。依照该应用实施例,假定使用者开始讲述欧洲专利协定的条款52(1)的文本“Europeanpatents shall be......”话音进入麦克风2,然后相应的语音信息SI通过模数转换器5传送到识别装置6。
随后,识别装置6在接收语音信息SI的块14执行期间进行识别,且在块15执行如上所述的语音识别方法。然后将在识别文本信息TI的同时确定的语音分析信息SAI存储在语音分析存储装置9中。作为执行语音识别方法的结果,识别装置6将下面的文本信息TI传送到替换装置10,此时使用者口述的单词“invention”被错误地识别为单词TW1=“INVASION”,且使用者口述的单词“NEW”被错误地识别为单词TW2=“FEW”。
文本信息TI=“European patents shall be granted for anyinvasion which are susceptible of industrialapplication,which are  few and which involve an inventivestep.The following in particular shall not be regarded asinventions within the meaning of paragraph 1:”。
在块16替换装置10执行文本编辑方法的第一部分,并且接着检查从识别装置6接收的文本信息TI中是否具有四单词口述命令SB结构,以探知识别的文本信息TI是第一文本信息TI1还是第二文本信息TI2。由于识别装置6识别的文本信息TI中不存在单词“REPLACE”或“WITH”,因此替换装置10将分别识别的文本信息TI作为第一文本信息TI1传送到编辑装置11。
然后在块17,编辑装置11将第一文本信息TI1作为监视器信号DS传送到监视器3,如图1所示监视器3显示第一文本信息TI1,之后再次执行流程4中的程序块14。光标C此时位于第一文本信息TI1的最后的符号“:”之后的位置处,表征编辑装置11的下一个输入点位置。
依照该应用实施例,现在假定使用者注意到口述单词“INVENTION”被错误识别了,且第一文本信息TI1包含了错误识别的单词TW1=“INVASION”。然后使用者将希望对该错误识别的单词TW1=“INVASION”进行编辑,且将其替换为新的单词TN=“INVENTION”,识别装置6应当正确地将口述单词识别为TN=“INVENTION”而不是错误识别的单词TW1=“INVASION”。因此,使用者说出口述命令第二文本信息TI2=“REPLACE INVASION WITH INVENTION(用INVENTION替代INVASION)”,声音进入麦克风2(图3)。
在块14执行期间,识别装置6对接收到的语音信号SI进行识别,且在块15执行语音识别方法用于处理接收到的语音信号SI,此时针对这个而确定的语音分析信息SAI存储在语音分析存储装置9中。在块16,对识别装置6识别的文本信息TI进行检查,且探知在识别文本信息TI中包含有四单词口述命令SB结构,其后将该识别文本信息TI存储为第二文本信息TI2。
继而-如图3所示-将包含在第二文本信息TI2中的文本信息部分TTI分配给口述命令部分SB。将文本信息部分TF1=“INVASION”识别为第二口述命令部分SB2,其表示在第一文本信息TI1中的错误文本信息部分TW1=“INVASION”。而且,将文本信息部分TI1=“INVESION”识别为第四口述命令部分SB4,其表示用于替换第一文本信息TI1中错误单词的新的单词。接着,在块18运行文本编辑方法。
在块18,替换装置10检查第二口述命令部分SB2的文本信息部分TF1=“INVASION”是否存在于第一文本信息TI1中。这个检查的结果是,第一文本信息TI1中的第八个单词TW1=“INVASION”匹配第二口述命令部分SB2的文本信息部分TF1=“INVASION”。然后替换装置10将检测信息DI传送到识别装置6,该检测信息DI表征第一文本信息TI1中的第八个单词。
在块19,替换装置10检查包含在口述命令SB中的新的单词IN1=“INVENTION”是否等于错误识别的单词TW1=“INVASION”。这一点将结合图1所示计算机1的第二个应用实施例来作进一步讨论。
当接收到检测信息DI时,识别装置6执行程序块20,其中对口述命令部分STI进行“重算”,假定其已导致对在第一文本信息TI1中邻近第八个单词的单词(“...granted for any  invasion whichare...”)进行识别,且已导致对第二口述命令部分SB2的单词“INVASION”以及第四口述命令部分SB4的单词“INVENSION”进行识别。在这个处理过程中还应该考虑到第一文本信息TI1与第二文本信息TI2的识别期间存储的语音分析信息SAI。
在“重算”期间,识别装置6为更好地进行识别,让一些信息作为附加信息可利用,这些是,应当已经识别到了对第一文本信息TI1中第八个单词的正确单词“INVENTION”,以及使用者在第二口述命令部分SB2中就象他曾经的发音一样对错误识别的单词进行发音。由于这个“重算”利用了附加信息,因此随之进行的替换具有高度可靠性。此外,这些附加信息可用于对存储在语境存储器7中的音素信息PI与文本信息部分TTI、以及存储在语音模型存储器8中的概率信息WI作适应修改。
“重算”的结果是,识别装置6将编辑信息EI传送到替换装置10,其中替换装置10表示当前正确识别的新的单词“INVENTION”和作为替换位置的在第一文本信息TI1中第八个单词的位置。作为这个“重算”的结果还有,可以确定这样的编辑信息EI,关于对此时由第二口述命令部分SB2表示的围绕在单词“invention”周围的单词进行替换。这是基于如下情况,根据概率信息WI的估算,假如对在第一文本信息TI1中围绕在新的单词周围的那些单词进行改变,会使得对第一文本信息TI1正确识别的总概率变大。
为了结束程序块20的执行,识别装置6将在重算期间非常可靠识别的文本信息部分TN=“INVENTION”、以及适当的围绕在第八个单词周围的单词的改变的文本信息部分作为编辑信息EI传送给替换装置10。替换装置10将识别装置6确定的编辑信息EI传送给编辑装置11,之后继续执行文本编辑方法进行到程序块21。
在程序块21,编辑装置11将光标C定位到第一文本信息TI1中第八个单词TW1=“INVASION”,之后继续执行文本编辑方法进行到程序块22。在程序块22,用新的单词TN1=“INVENTION”替换第八个单词TW1=“INVASION”。在随后执行的程序块23,光标C回到初始位置,即第一文本信息TI1中最后一个符号“:”后面的位置。
这样做的优点是,只通过一个口述命令SB就实现了用新的单词TN1=“INVENTION”对错误识别的单词TW1=“INVASION”的替换,识别装置6实际上识别认可了新的单词TN1而不是错误识别的单词TW1。另外的优点是,光标C在错误识别的单词被替换之后,立即回复到第一文本信息TI1中的适当位置,以继续对欧洲专利协定专利法第52条的口述。
这里存在一个极大的优点是,来自在重算期间为确定正确替换识别错误单词的信息使用效率很高。
在下面,将参照计算机1的第二个应用实施例来说明计算机1进一步的优点。依照第二个应用实施例,假定计算机1的使用者想要用此处实际口述的单词“NEW”替换第一文本信息TI1中的错误识别单词TW2=“FEW”。为了实现这个目的,使用者说出口述命令SB=“REPLACEFEW WITH NEW(用NEW替换FEW)”而话音进入麦克风2,之后流程4继续进行到程序块15。
在程序块15执行语音识别方法,识别装置6为每个口述命令部分STI确定了多个选项文本信息部分AT1且放入选项表AT,如图4所示。对于第二口述命令部分ST2,单词TF2=“SUE”作为第一选项文本信息部分AT1输入选项表AT,而单词TF3=“FEW”仅作为第二选项文本信息部分AT2输入选项表AT。对于第三口述命令部分ST3,单词“BY”作为第一选项文本信息部分AT1输入选项表AT,而单词“LIE”作为第二选项文本信息部分AT2输入选项表AT。最后,口述命令中口述的单词“NEW”被错误识别了,且对于第四口述命令部分ST4单词TN2=“FEW”作为第一选项文本信息部分AT1输入选项表AT。单词TN3=“NEW”仅作为第二选项文本信息部分AT2输入选项表AT,而单词“HUGH”作为第三选项文本信息部分AT3输入选项表AT。
由于当使用者说出口述命令SB时他对单词“FEW”的发音不清楚,识别装置6认定对第二口述命令部分STI而言单词“SUE”具有比单词“FEW”要大的正确识别概率。对于使用者发音的单词“NEW”的识别,语音识别方法在识别第一文本信息TI1期间已经存在了问题,因此单词“FEW”也被认定具有较大的正确识别概率。因此,假定选项文本信息部分“REPLACE SUE BY FEW(用FEW替换SUE)”是第二文本信息TI2中的最可几变体,且识别装置6将其作为识别文本信息TI传送到替换装置10。
当执行程序块16时,替换装置10检测到包含四单词口述命令SB的结构,之后流程4继续进行到程序块18。当执行程序块18时,替换装置10检查作为第二口述命令SB2包含在第二文本信息TI2中的单词TF2=“SUE”是否包含在第一文本信息TI1中。这个检查表明单词TF2=“SUE”没有出现在第一文本信息TI1中,则继续执行文本编辑方法到程序块24。
当执行程序块24时,替换装置10读存储在语音分析存储装置9中的选项表AT且检查为第二口述命令部分STI2存储的选项文本信息部分ATI是否包含在第一文本信息TI1中。作为该检查的结果,替换装置10检测第二选项文本信息部分ATI2-从而单词TF3=“FEW”-是包含在第一文本信息TI1中的第十七个单词。
其优点是,即使当第二口述命令部分SB2由于口述命令SB的不清楚发音而被错误识别了的时候,使用者所想要替换的单词也会得到正确替换。在执行程序块24之后,执行程序块19。
在程序块19,替换装置10检查包含在口述命令SB中的新的单词TN2=“FEW”是否等于错误识别的单词TW2=“FEW”。检查的结果是两个单词相同,因此继续执行文本编辑方法从而进入程序块25。
在程序块25,替换装置10将第二最可几选项文本信息部分AT2=“FEW”而不是最大可能的选项文本信息部分AT1=“FEW”确定为新的单词。随后,如前所述,执行程序块20至23且用单词TN3=“NEW”替换在第一文本信息TI1中的单词TW2=“FEW”。
其优点是,假如在第一文本信息TI1中已经被错误识别的单词在口述命令SB中也被错误识别了,执行计算机1的使用者所希望的替换的可能性仍然很大。如果利用扩展的四单词口述命令进行的这样的一个替换没能得到使用者所希望的结果,则可以一种非常简便的方式说出口述命令“UNDO”取消最后一次替换。
人们可能已经觉察到了,在流程4中的程序块14、15与17对应语音识别方法,而程序块16以及18至25对应着文本编辑方法。
人们可能还已经觉察到了,四单词口述命令的每一部分都包含着一个或多个单词。而且,当说出四个单词的口述命令时第三口述命令部分也可以用一个停顿构成。在那种情况下,依照第一应用实施例,使用者将发声说出四个单词的口述命令“REPLACE INVASION”停顿“INVENTION”。在那种情况下,四个单词的口述命令特征在于:在第二文本信息部分TI2中的第一位置的单词和在第二文本信息部分TI2中的第二个或更远的单词之后由识别装置识别出的停顿。

Claims (7)

1.一种具有文本编辑方法的语音识别方法(4),所述文本编辑方法用于利用在第二文本信息(TI2)中识别的四个单词的口述命令(SB)对在第一文本信息(TI1)中错误识别的文本信息部分(TW)进行编辑,该语音识别方法(4)包括下属步骤:
·接收语音信息(SI)且对第一文本信息(TI1)与第二文本信息
  (TI2)进行识别;
·检查位于第二文本信息(TI2)中第一位置的单词是否匹配四个单
  词的口述命令(SB)的第一口述命令部分(SB1),且检查位于
  第二文本信息(TI2)中第三位置或更远位置的单词是否匹配四
  个单词的口述命令(SB)的第三口述命令部分(SB3),此时,
  如果检查得到肯定的结果,则执行文本编辑方法的下一步;
·检查第一文本信息(TI1)是否包含错误识别的信息部分(TW),
  错误识别的信息部分(TW)的特征为在第一口述命令部分(SB1)
  与第三口述命令部分(SB3)之间的第二文本信息(TI2)中的第
  二口述命令部分(SB2),此时,如果检查得到肯定的结果,则
  执行文本编辑方法的下一步;
·用第二文本信息(TI2)包含的新的文本信息部分(TN)对第一文
  本信息(TI1)中的错误识别的信息部分(TW)进行替换,作为
  四个单词的口述命令(SB)中位于第三口述命令部分(SB3)之
  后的第四口述命令部分(SB4)。
2.一种如权利要求1所述的语音识别方法(4),其中在对错误识别的信息部分(TW)进行替换之后,将光标(C)定位在最近识别的第一文本信息(TI1)的末尾,所述光标(C)表征通过语音识别方法(4)识别的进一步的文本信息(TI)的输入点位置。
3.一种如权利要求1所述的语音识别方法(4),其中四个单词的口述命令(SB)具有结构“REPLACE A WITH B(用B替换A)”,且其中第二口述命令部分“A”表征错误识别的单词,第四口述命令部分“B”表征要被实际识别的单词而不是错误识别的单词。
4.一种如权利要求1所述的语音识别方法,其中提供了下述步骤:
·为当对第二文本信息(TI2)进行识别时接收到的口述信息(SI)
的每个口述信息部分(STI)确定选项文本信息部分(ATI),此
  时包含在第二文本信息(TI2)中的选项文本信息部分(ATI)具
  有最大的正确识别第二文本信息(TI2)的总概率,
·检查第一文本信息(TI1)是否包含错误识别的信息部分(TW),所
  述错误识别的信息部分(TW)的特征为不包含在第二文本信息
  (TI2)中的第二口述命令部分(SB2)的选项文本信息部分(ATI)
  之一,且如果检查得到肯定的结果,则用新的文本信息部分(TN)
  对错误识别的信息部分(TW)进行替换。
5.一种如权利要求1所述的语音识别方法,其中还提供了下述步骤:
·为当对第二文本信息(TI2)进行识别时接收到的口述信息(SI)
  的每个口述信息部分(STI)确定选项文本信息部分(ATI),此
  时包含在第二文本信息(TI2)中的选项文本信息部分(ATI)具
  有最大的正确识别第二文本信息(TI2)的总的概率;
·检查包含在第一文本信息(TI1)中的错误识别的信息部分(TW)
  是否匹配包含在第二文本信息(TI2)中的新的文本信息(TN),
  此时,如果检查得到肯定的结果,则将为新的文本信息(TN)确
  定的选项文本信息部分(ATI)存储作为新的文本信息(TN)。
6.一种计算机程序产品,其可直接装入到数字计算机(1)的内存储器且包括软件代码段,同时当该程序产品在计算机(1)上运行时计算机(1)执行权利要求1所述的语音识别方法(4)的步骤。
7.一种如权利要求6所述的计算机程序产品,其中计算机程序产品存储在计算机可读取的介质上。
CN01803464.0A 2000-09-08 2001-08-24 具有替换命令的语音识别方法 Expired - Lifetime CN1193342C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00890276.9 2000-09-08
EP00890276 2000-09-08

Publications (2)

Publication Number Publication Date
CN1394331A true CN1394331A (zh) 2003-01-29
CN1193342C CN1193342C (zh) 2005-03-16

Family

ID=8175965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN01803464.0A Expired - Lifetime CN1193342C (zh) 2000-09-08 2001-08-24 具有替换命令的语音识别方法

Country Status (7)

Country Link
US (1) US7027985B2 (zh)
EP (1) EP1317750B1 (zh)
JP (2) JP5093963B2 (zh)
CN (1) CN1193342C (zh)
AT (1) ATE364219T1 (zh)
DE (1) DE60128816T2 (zh)
WO (1) WO2002021510A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
CN107170447A (zh) * 2016-03-08 2017-09-15 丰田自动车株式会社 声音处理***以及声音处理方法
CN108320743A (zh) * 2018-02-07 2018-07-24 上海速益网络科技有限公司 一种数据录入方法及装置
CN108364653A (zh) * 2018-02-12 2018-08-03 王磊 语音数据处理方法及处理装置
CN109643545A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理设备和信息处理方法
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和***

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1193342C (zh) * 2000-09-08 2005-03-16 皇家菲利浦电子有限公司 具有替换命令的语音识别方法
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
KR100679042B1 (ko) * 2004-10-27 2007-02-06 삼성전자주식회사 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
JP4765427B2 (ja) * 2005-06-20 2011-09-07 船井電機株式会社 音声認識機能付きav機器
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7831423B2 (en) * 2006-05-25 2010-11-09 Multimodal Technologies, Inc. Replacing text representing a concept with an alternate written form of the concept
US8521510B2 (en) 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20090326938A1 (en) * 2008-05-28 2009-12-31 Nokia Corporation Multiword text correction
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
WO2011144675A1 (en) 2010-05-19 2011-11-24 Sanofi-Aventis Deutschland Gmbh Modification of operational data of an interaction and/or instruction determination process
US9361282B2 (en) * 2011-05-24 2016-06-07 Lg Electronics Inc. Method and device for user interface
US9318110B2 (en) * 2011-09-09 2016-04-19 Roe Mobile Development Llc Audio transcription generator and editor
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
JP5753769B2 (ja) * 2011-11-18 2015-07-22 株式会社日立製作所 音声データ検索システムおよびそのためのプログラム
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10304465B2 (en) 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US10373615B2 (en) 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US10381002B2 (en) 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US9584642B2 (en) 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US8768712B1 (en) 2013-12-04 2014-07-01 Google Inc. Initiating actions based on partial hotwords
JP6417104B2 (ja) * 2014-04-16 2018-10-31 株式会社日立システムズ テキスト編集装置、テキスト編集方法、及びプログラム
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
EP2980792A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US9971758B1 (en) * 2016-01-06 2018-05-15 Google Llc Allowing spelling of arbitrary words
DK201670539A1 (en) * 2016-03-14 2017-10-02 Apple Inc Dictation that allows editing
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN108831469B (zh) * 2018-08-06 2021-02-12 珠海格力电器股份有限公司 语音命令定制方法、装置和设备及计算机存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914704A (en) * 1984-10-30 1990-04-03 International Business Machines Corporation Text editor for speech input
US5231670A (en) * 1987-06-01 1993-07-27 Kurzweil Applied Intelligence, Inc. Voice controlled system and method for generating text from a voice controlled input
US5794189A (en) * 1995-11-13 1998-08-11 Dragon Systems, Inc. Continuous speech recognition
US6064959A (en) * 1997-03-28 2000-05-16 Dragon Systems, Inc. Error correction in speech recognition
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator
US5884258A (en) * 1996-10-31 1999-03-16 Microsoft Corporation Method and system for editing phrases during continuous speech recognition
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US5875429A (en) * 1997-05-20 1999-02-23 Applied Voice Recognition, Inc. Method and apparatus for editing documents through voice recognition
JP3815110B2 (ja) * 1999-04-09 2006-08-30 株式会社日立製作所 音声入力装置及び音声入力方法
JP3980791B2 (ja) * 1999-05-03 2007-09-26 パイオニア株式会社 音声認識装置を備えたマンマシンシステム
US6327566B1 (en) * 1999-06-16 2001-12-04 International Business Machines Corporation Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
US6347296B1 (en) * 1999-06-23 2002-02-12 International Business Machines Corp. Correcting speech recognition without first presenting alternatives
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
CN1193342C (zh) * 2000-09-08 2005-03-16 皇家菲利浦电子有限公司 具有替换命令的语音识别方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101185115B (zh) * 2005-05-27 2011-07-20 松下电器产业株式会社 语音编辑装置及方法和语音识别装置及方法
CN107170447A (zh) * 2016-03-08 2017-09-15 丰田自动车株式会社 声音处理***以及声音处理方法
CN107170447B (zh) * 2016-03-08 2021-01-05 丰田自动车株式会社 声音处理***以及声音处理方法
CN109643545A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理设备和信息处理方法
CN109841209A (zh) * 2017-11-27 2019-06-04 株式会社速录抓吧 语音识别设备和***
CN108320743A (zh) * 2018-02-07 2018-07-24 上海速益网络科技有限公司 一种数据录入方法及装置
CN108364653A (zh) * 2018-02-12 2018-08-03 王磊 语音数据处理方法及处理装置

Also Published As

Publication number Publication date
JP5093963B2 (ja) 2012-12-12
US20020046032A1 (en) 2002-04-18
DE60128816T2 (de) 2008-02-07
EP1317750B1 (en) 2007-06-06
JP2004508594A (ja) 2004-03-18
ATE364219T1 (de) 2007-06-15
EP1317750A1 (en) 2003-06-11
CN1193342C (zh) 2005-03-16
US7027985B2 (en) 2006-04-11
WO2002021510A1 (en) 2002-03-14
JP2012238017A (ja) 2012-12-06
DE60128816D1 (de) 2007-07-19

Similar Documents

Publication Publication Date Title
CN1193342C (zh) 具有替换命令的语音识别方法
JP4846336B2 (ja) 会話制御装置
US6308151B1 (en) Method and system using a speech recognition system to dictate a body of text in response to an available body of text
US6374214B1 (en) Method and apparatus for excluding text phrases during re-dictation in a speech recognition system
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
CN1277248C (zh) 语音识别***
JP4888996B2 (ja) 会話制御装置
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
CN1199148C (zh) 语音识别装置、语音识别方法
CN1249667C (zh) 声控服务
US20030125945A1 (en) Automatically improving a voice recognition system
CN1655235A (zh) 基于话音特征自动标识电话呼叫者
JP2007114621A (ja) 会話制御装置
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
US8862468B2 (en) Leveraging back-off grammars for authoring context-free grammars
JP2007115145A (ja) 会話制御装置
JPH11191000A (ja) テキストを音声信号と整列する方法
JP2002524776A (ja) 音声認識および自然言語処理を使用した対話型ユーザ・インタフェース
CN1280783C (zh) 声音识别装置和声音识别方法
EP0242743B1 (en) Speech recognition system
US20170270923A1 (en) Voice processing device and voice processing method
CN1159701C (zh) 执行句法置换规则的语音识别装置
JP5257680B2 (ja) 音声認識装置
JP4475628B2 (ja) 会話制御装置、会話制御方法並びにこれらのプログラム
JP2005275348A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: DIFFERENTIAL COMMUNICATION AUSTRIA ROMPLAST-14

Free format text: FORMER OWNER: ROYAL PHILIPS ELECTRONICS CO., LTD.

Effective date: 20090731

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20090731

Address after: Austria Vienna

Patentee after: Koninkl Philips Electronics NV

Address before: Holland Ian Deho Finn

Patentee before: Koninklike Philips Electronics N. V.

CX01 Expiry of patent term

Granted publication date: 20050316

CX01 Expiry of patent term