CN110021295B - 用于识别由语音识别***生成的错误转录的方法和*** - Google Patents
用于识别由语音识别***生成的错误转录的方法和*** Download PDFInfo
- Publication number
- CN110021295B CN110021295B CN201910000917.4A CN201910000917A CN110021295B CN 110021295 B CN110021295 B CN 110021295B CN 201910000917 A CN201910000917 A CN 201910000917A CN 110021295 B CN110021295 B CN 110021295B
- Authority
- CN
- China
- Prior art keywords
- class
- transcription
- utterance
- evidence
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 356
- 230000035897 transcription Effects 0.000 title claims abstract description 356
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004590 computer program Methods 0.000 claims abstract description 16
- 230000004044 response Effects 0.000 claims description 84
- 238000012545 processing Methods 0.000 claims description 38
- 230000008569 process Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 13
- 238000006467 substitution reaction Methods 0.000 claims description 12
- 238000012937 correction Methods 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 21
- 230000015654 memory Effects 0.000 description 20
- 238000012217 deletion Methods 0.000 description 13
- 230000037430 deletion Effects 0.000 description 13
- 238000003780 insertion Methods 0.000 description 13
- 230000037431 insertion Effects 0.000 description 13
- 238000010801 machine learning Methods 0.000 description 13
- 230000002085 persistent effect Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000002452 interceptive effect Effects 0.000 description 5
- YTPLMLYBLZKORZ-UHFFFAOYSA-N Thiophene Chemical compound C=1C=CSC=1 YTPLMLYBLZKORZ-UHFFFAOYSA-N 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 239000000344 soap Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005352 clarification Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000011524 similarity measure Methods 0.000 description 2
- 229930192474 thiophene Natural products 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/16—Automatic learning of transformation rules, e.g. from examples
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
提供用于识别由语音识别***生成的错误转录的方法、设备和计算机程序产品。识别由语音识别***生成的错误转录。提供一组已知的话语成员以供语音识别***使用。每个话语成员由相应的多个单词组成。接收到的话语与该组已知话语成员中的第一话语成员匹配。第一话语成员是最接近匹配的话语成员,并且具有第一多个单词。匹配操作将所接收的话语中少于第一多个的单词匹配,并且与第一话语成员中的第一时隙中的第一单词相比,所接收的话语以第一特定方式变化。接收到的话语被发送到错误转录分析器组件,该组件递增所接收的话语是错误转录的证据的证据。一旦针对错误转录的递增证据超过阈值,则如同第一单词被识别一样处理未来接收到的包含错误转录的话语。
Description
技术领域
本公开一般涉及机器学习。更具体地,本公开涉及教授机器学习***以检测语音识别任务的转录错误。
背景技术
语音识别是一种计算机技术,其允许用户执行各种交互式计算机任务,作为通过传统输入装置(诸如鼠标和键盘)进行通信的替代方案。一些任务包括为计算机传送命令以执行所选择的功能或将语音转录成用于计算机应用程序(诸如电子表格或文字处理应用程序)的书面转录。不幸的是,语音识别过程不是没有错误的,并且重要的问题是纠正转录错误或“错误转录”。当计算机的语音识别组件在说出的话语中错误地转录声学信号时,发生错误转录。在自动语音识别任务中,当选择的单词被错误地转录时,可能无法正确执行命令或者可能无法正确地转录语音。错误转录可能是由于一个或多个因素造成的。例如,可能是因为用户是非本地发言者,由于用户的草率讲话,或者是因为语音识别***的信道上的背景噪声。
一种类型的错误转录是替换错误,其中语音识别***用不正确的单词替换发出的单词。另一种类型的错误是***错误,其中***识别“垃圾”话语,例如呼吸、背景噪声、“嗯”,或将一个单词解释为两个单词等等。另一种类型的转录错误是删除错误,其中发音单词中的一个发音单词不在转录中发生。在一些情况下,可能发生删除,因为语音识别***根据其字典将识别的音素作为不存在的单词进行拒绝。可替代地,删除是由于两个单词的不正确合并。例如,用户可能说“九棵树”,并且***将该话语识别为“九十”。
用于解决错误转录的传统方法包括手动检查转录以查找错误并通过诸如键盘的输入装置来校正它们,或者通过使***识别候选错误转录并且进入旨在校正它们的与用户的对话来校正它们。例如,***可以经由扬声器询问用户“你说'鸡'吗?”如果用户说“不”,则***会将候选错误转录记录为错误。还可以通过改进特定用户的语音模型来减少转录错误的数量。当***从特定用户接收到更多数量的语音样本时,或者通过让用户从已知转录中读取,或者通过用户继续使用该***,语音识别***的默认声学模型可以更好地适应用户。
需要进一步改进计算机辅助语音识别。
发明内容
根据本公开,一种用于识别由语音识别***生成的错误转录的方法、设备和计算机程序产品。提供一组已知的话语成员以供语音识别***使用。每个话语成员由相应的多个单词组成。接收到的话语与该组已知话语成员中的第一话语成员相匹配。第一话语成员是最接近匹配的话语成员,并且具有第一多个单词。匹配操作匹配所接收的话语中少于第一多个的单词,并且与第一话语成员中的第一时隙中的第一单词相比,所接收的话语以第一特定方式变化。接收到的话语被发送到错误转录分析器组件,该组件递增所接收的话语是错误转录的证据的证据。一旦用于错误转录的递增证据超过阈值,则未来接收到的包含错误转录的话语被视为通过第一单词被识别。
前面已经概述了所公开主题的一些更相关的特征。这些特征应该被解释为仅仅是说明性的。通过以不同方式应用所公开的主题或通过修改将要描述的本发明,可以获得许多其它有益结果。
附图说明
为了更完整地理解本发明及其优点,现在参考以下结合附图的描述,在附图中:
图1描绘了分布式数据处理环境的示例性框图,其中可以实现说明性实施例的示例性方面;
图2是数据处理***的示例性框图,其中可以实现说明性实施例的示例性方面;
图3示出了根据本发明实施例的语音识别***中的组件的架构图;
图4示出了根据本发明实施例的操作语音识别***的流程图;
图5是根据本发明实施例的基于用户响应添加类成员的流程图;
图6是根据本发明实施例的添加类成员应被添加到多个类的证据的流程图;
图7是根据本发明实施例的用于检测新的转录错误是替换、删除还是***错误的图;
图8是示出用于递增证据的流程图,该证据即来自一个类成员的错误转录的单词是错误转录的单词为在相同类的另一个类成员中的相同单词的合法替代的证据;
图9是示出用于递增证据的流程图,该证据即来自一个类的错误转录的单词是错误转录的单词为在不同类的类成员中的相同单词的合法替代的证据;以及
图10是使用语音识别***获取附加证据的本发明的一个实施例的流程图。
具体实施方式
在高层次上,本发明的优选实施例提供了一种用于机器学***。
通过错误转录分析器在本发明的实施例中使用各种规则来确定应该用相同的错误转录的附加实例增加多少置信水平。在一些实施例中,错误转录分析器使用机器学习算法。由于特定转录提供的证据量取决于许多因素,如下所述。例如,***越多地看到在这个或其它成员话语中转录为Y的预期X的话语,X到Y的错误转录的证据越多。此外,在特定话语中匹配的单词的数量越大,例如,具有单个可疑错误转录单词的长话语,则错误转录分析器假定错误转录的证据越多。由于特定错误转录的证据变得几近确定,分类***能够处理具有错误转录的识别话语,如同原始单词被识别一样。本发明的实施例实现此目的的一种方式是添加新的话语,其中一个或多个错误转录替换现有类成员的原始单词,作为一个或多个话语类的类成员。本发明的其它实施例使用的另一种方式是将错误转录识别为原始单词的有效替代,使得无论何时识别,***都如同原始单词被识别一样替代进行。
在以下描述中,确定是否应该添加新的错误转录或新的话语以供***使用的过程通常被描述为递增证据。本领域技术人员将理解,递增的证据可以在一些实施例中的置信度计算中使用,例如,作为机器学习***的一部分。因此,当递增证据超过阈值时,阈值可以是累积的证据阈值或基于累积的证据计算的置信度阈值。在证据阈值或置信度阈值计算中,从不同的错误转录实例收集的各个证据可以在阈值计算中具有不同的权重或影响。在优选实施例中,根据所接收的话语的属性与话语成员的属性的接近程度,针对各个话语成员递增错误转录的证据。在其它实施例中,用于错误转录的证据(例如,识别单词Y而不是单词X)在单个位置中递增,使得一旦针对错误转录超过阈值,***就处理包含错误转录的任何未来接收的话语,如同原始单词被识别一样。
现在参考附图,并且特别是参考图1-2,提供了数据处理环境的示例性图,其中可以实现本公开的说明性实施例。应该理解,图1-2仅是示例性的,并非旨在声明或暗示关于可以实现所公开主题的方面或实施例的环境的任何限制。在不脱离本发明的精神和范围的情况下,可以对所描绘的环境进行许多修改。
现在参考附图,图1描绘了示例性分布式数据处理***的图形表示,其中可以实现说明性实施例的各方面。分布式数据处理***100可以包括计算机网络,其中可以实现说明性实施例的各方面。分布式数据处理***100包含至少一个网络102,该网络102是用于在分布式数据处理***100内连接在一起的各种装置和计算机之间提供通信链路的介质。网络102可以包括连接,诸如有线、无线通信链路或光纤电缆。
在所描绘的示例中,服务器104和服务器106连同网络存储单元108连接到网络102。此外,客户端110、112和114也连接到网络102。这些客户端110、112和114可以是例如智能手机、平板计算机、个人计算机、网络计算机等。在所描绘的示例中,服务器104向客户端110、112和114提供诸如引导文件、操作***图像和应用程序的数据。在所描绘的示例中,客户端110、112和114是服务器104的客户端。分布式数据处理***100可以包括附加服务器、客户端和未示出的其它装置。一个或多个服务器计算机可以是连接到网络102的主机计算机。主机计算机可以是例如运行IBM z/OS操作***的IBM***z主机。连接到主机的可能是主机存储单元和工作站(未图示)。工作站可以是直接连接到通过总线通信的主机的个人计算机,也可以是经由显示端口直接连接到主机的控制台终端。
在所描绘的示例中,分布式数据处理***100是因特网,其中网络102表示使用传输控制协议/因特网协议(TCP/IP)协议组彼此通信的全球网络和网关集合。因特网的核心是主要节点或主计算机之间的高速数据通信线路的骨干,由数千个路由数据和消息的商业、政府、教育和其它计算机***组成。当然,分布式数据处理***100还可以实现为包括多种不同类型的网络,诸如例如内联网、局域网(LAN)、广域网(WAN)等。如上所述,图1中所示的旨在作为示例,而不是对所公开主题的不同实施例的架构限制,并且因此,图1中所示的特定元件不应被认为是关于可以实现本发明的说明性实施例的环境的限制。
现在参考图2,示出了示例性数据处理***的框图,其中可以实现说明性实施例的各方面。数据处理***200是计算机的示例,诸如图1中的客户端114,其中可以定位实现本公开的说明性实施例的过程的计算机可用代码或指令。
现在参考图2,示出了数据处理***的框图,其中可以实现说明性实施例。数据处理***200是计算机的示例,诸如图1中的服务器104或客户端110,其中可以为说明性实施例定位实现该过程的计算机可用程序代码或指令。在该说明性示例中,数据处理***200包括通信结构202,其提供处理器单元204、存储器206、永久存储装置208、通信单元210、输入/输出(I/O)单元212和显示器214之间的通信。
处理器单元204用于执行可以加载到存储器206中的软件的指令。取决于特定实施方式,处理器单元204可以是一组一个或多个处理器,或者可以是多处理器核。此外,处理器单元204可以使用一个或多个异构处理器***来实现,其中主处理器与二级处理器一起存在于单个芯片上。作为另一个说明性示例,处理器单元204可以是包含多个相同类型的处理器的对称多处理器(SMP)***。
存储器206和永久存储装置208是存储装置的示例。存储装置是能够临时和/或永久存储信息的任何硬件。在这些示例中,存储器206可以是例如随机存取存储器或任何其它合适的易失性或非易失性存储装置。取决于特定实施方式,永久存储装置208可以采取各种形式。例如,永久存储装置208可以包含一个或多个组件或装置。例如,永久存储装置208可以是硬盘驱动器、闪存、可重写光盘、可重写磁带或上述的一些组合。永久存储装置208使用的介质也可以是可移动的。例如,可移动硬盘驱动器可以用于永久存储装置208。
在这些示例中,通信单元210提供与其它数据处理***或装置的通信。在这些示例中,通信单元210是网络接口卡。通信单元210可以通过使用物理和无线通信链路之一或两者来提供通信。
输入/输出单元212允许与可以连接到数据处理***200的其它装置输入和输出数据。例如,输入/输出单元212可以通过键盘和鼠标为用户输入提供连接。此外,输入/输出单元212可以将输出发送到打印机。此外,输入/输出单元可以提供到麦克风的连接,用于来自用户和扬声器的音频输入,以提供来自计算机的音频输出。显示器214提供向用户显示信息的机制。
操作***和应用程序或程序的指令位于永久存储装置208上。这些指令可以加载到存储器206中以供处理器单元204执行。不同实施例的过程可以由处理器单元204使用计算机实现的指令来执行,该指令位于诸如存储器206的存储器中。这些指令可以被称为程序代码、计算机可用程序代码或计算机可读程序代码,其可以由处理器单元204中的处理器读取和执行。在不同实施例中,可以在不同的物理或有形计算机可读介质(诸如存储器206或永久存储装置208)上实现。
程序代码216以功能形式位于计算机可读介质218上,该计算机可读介质218可选择性地被移除并且可被加载到或传送到数据处理***200以供处理器单元204执行。在这些示例中,程序代码216和计算机可读介质218形成计算机程序产品220。在一个示例中,计算机可读介质218可以是有形的形式,诸如例如***或放置在驱动器或其它装置中的光盘或磁盘,该驱动器或其它装置是永久存储装置208的一部分,用于传输到存储装置上,诸如作为永久存储装置208的一部分的硬盘驱动器。在有形形式中,计算机可读介质218也可以采取永久存储装置的形式,诸如硬盘驱动器、拇指驱动器或连接到数据处理***200的闪存。计算机可读介质218的有形形式也称为计算机可记录存储介质。在一些情况下,计算机可记录介质218可能不是可移除的。
可替代地,程序代码216可以从计算机可读介质218通过到通信单元210的通信链路和/或通过到输入/输出单元212的连接传送到数据处理***200。通信链路和/或连接在说明性示例中可以是物理的或无线的。计算机可读介质还可以采取非有形介质的形式,诸如包含程序代码的通信链路或无线传输。为数据处理***200示出的不同组件并不意味着对可以实现不同实施例的方式提供架构限制。不同的说明性实施例可以在数据处理***中实现,该数据处理***包括除了针对数据处理***200所示的组件之外或代替针对数据处理***200所示的组件的组件。图2中所示的其它组件可以与所示的说明性示例不同。作为一个示例,数据处理***200中的存储装置是可以存储数据的任何硬件设备。存储器206、永久存储装置208和计算机可读介质218是有形形式的存储装置的示例。
在另一个示例中,总线***可以用于实现通信结构202,并且可以由一个或多个总线组成,诸如***总线或输入/输出总线。当然,总线***可以使用任何合适类型的架构来实现,该架构提供在附接到总线***的不同组件或装置之间的数据传输。另外,通信单元可以包括用于发送和接收数据的一个或多个装置,诸如调制解调器或网络适配器。此外,存储器可以是例如存储器206或诸如存在于通信结构202中的接口和存储器控制器集线器中的高速缓存。
用于执行本发明的操作的计算机程序代码可以以一种或多种编程语言的任何组合来编写,包括诸如JavaTM、Smalltalk、C++、C#、Objective-C等的面向对象的编程语言,以及诸如Python或C的传统的过程编程语言。程序代码可以完全在用户的计算机上执行,部分地在用户的计算机上执行,作为独立的软件包,部分地在用户的计算机上以及部分地在远程计算机上,或完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,通过因特网使用因特网服务提供商)。
本领域普通技术人员将理解图1-2中的硬件可能因实施方式而变化。除了图1-2中所示的硬件之外或代替图1-2中所示的硬件,可以使用其它内部硬件或***装置,诸如闪存、等效的非易失性存储器或光盘驱动器等。此外,在不脱离所公开主题的精神和范围的情况下,说明性实施例的过程可以应用于除了先前提到的SMP***之外的多处理器数据处理***。
在此描述的技术可以在诸如图1中所示的标准客户端-服务器范例内结合操作,其中客户端机器与在一组一台或多台机器上执行的可通过因特网访问的基于Web的门户进行通信。终端用户操作能够访问门户并与门户交互的可连接因特网的装置(例如,台式计算机、笔记本计算机、支持因特网的移动装置等)。通常,每个客户端或服务器机器是诸如图2中所示的包括硬件和软件的数据处理***,并且这些实体通过网络彼此通信,诸如因特网、内联网、外联网、专用网络或任何其它通信介质或链路。数据处理***通常包括一个或多个处理器、操作***、一个或多个应用程序,以及一个或多个实用程序。
虽然人们在对话中经常不能正确理解每个单词,但是人类使用对话的语境来帮助拼凑出被误解的单词应当是什么。语音识别机制不具有人类用来做出这种情境判断的工具。然而,通过机器学习,可以通过观察相同的重复转录错误(有时与用户行为相结合)来学习有关错误转录单词必须是什么的置信度。本发明的实施例允许***基于个体用户和环境以及用户类别和环境类型进行学习。
可以实现本发明的实施例的一个环境在图3中示出。语音识别***303接收语音样本301,以转换成计算机可用的文本或标记。语音识别***303的一部分是分类器304,诸如IBM Watson自然语言分类器或Stanford分类器。该组件识别询问或说出相同事物的问题或断言的类(可替代地,“话语”)309。例如,可能存在一个询问到最近的洗手间的方向的类。这种请求可以有多种形式,即“哪条路到洗手间?”、“洗手间在哪里”、“哪条路到厕所?”等等。在该情况下,“哪条路到洗手间?”、“洗手间在哪里”和“哪条路到厕所?”被称为类实例309a...309c。所有实例都具有相同的“意图”。分类器采用话语并尝试将其与任何已知类和类实例相匹配。分类器304返回最高置信度类以及置信度311。如果返回的置信度超过***设置的阈值,则***用与给定类相关联的指定响应来响应313。同时,错误转录分析器312遍历最高匹配类的类成员中的每个类成员并找到最接近的匹配类成员。如果没有完全匹配,则在累积足够的证据之后,在步骤310中将新的类成员添加到类中。如果找到接近的类实例,则***尝试推断出在下面更详细阐述的过程中,针对已知的单词(或多个单词),哪些单词(或多个单词)可能被错误转录。可疑错误转录的单词对存储在错误转录的单词对数据存储器325中。该数据存储器325存储错误听到的单词(或者是多个单词)和正确的单词。在本发明的替代实施例中,话语不是按类组织的,而是每个话语具有其自己的相关联***响应。以下大多数描述描述了将类中的话语组织为类实例或成员的实施例。在本发明的一些实施例中,错误转录分析器312使用机器学习算法来递增特定错误转录的证据量。如下面将讨论的,取决于错误转录分析器312使用的规则,特定的错误转录实例可以为不同的类成员递增不同量的证据。
在本发明的实施例中,所有组件可以驻留在单个***中。在其它实施例中,组件中的一些组件可以分布在不同***中。例如,语音样本可以由例如智能手机的客户端***获取,语音识别***303、分类器304和类存储装置309可以驻留在服务器处,并且***响应313可以是在客户端处回放的语音响应,或者是在分布式网络中的另一个***处执行的响应。
在操作的第一阶段中,分类器304将识别各个类成员,并且如果识别出类成员,则产生适当的***响应313。在许多情况下,***响应将是由***生成的语音,例如用户提问的答案。***响应313可以是非语音响应,例如,用户请求的窗口或网页的图形用户界面中的检索和视觉显示。
在本发明的实施例中,从用户收集对***响应的反馈。反馈可以采取附加语音样本的形式,例如,另外的类似问题、否定响应“这不是我的意思”,或隐含地通过缺少指示接受响应为正确的附加响应。其它用户输入可以指示接受或拒绝响应。例如,如果用户询问关于语音识别***是知识渊博的主题或者关于***上显示的网页的问题,并且用户继续与***交互或者以并不奇怪的方式继续查看网页,则这种动作可以被***解释为接受响应。当分类器304不能将初始语音样本识别为类成员时,在本发明的实施例中,语音识别器303可以生成澄清问题以提示用户提供附加信息和/或语音样本。
在操作的第一阶段中,分类器304还将向错误转录分析器312发送不匹配识别的类成员的识别语音305的消息。在本发明的实施例中,错误转录分析器312尝试交换不同的可能从错误转录单词对数据存储器325获得的错误转录,并将文本重新提交给分类器304,例如作为候选类成员。
在第二操作阶段中,错误转录分析器312将类成员添加到现有一组类以供分类器304使用。错误转录分析器312存储候选类成员的发生,包括候选类中的(多个)候选错误转录,该候选类计算最有可能属于的识别语音。随着存储相同候选类成员和(多个)相同候选错误转录的发生越多,候选类成员在该类中所属以及候选错误转录是现有类成员中的单词的替代形式的置信度越高。当达到阈值时,候选类成员被添加到类中作为识别的类成员311以供分类器304使用以生成对用户的***响应313。在本发明的替代实施例中,类存储装置309在错误转录分析器312和分类器304之间共享。当候选类成员被错误转录分析器312作为新的类成员添加到类中时,分类器304将简单地开始使用它。
作为第二操作阶段的一部分,本发明的实施例还包括“预期类成员”或“候选类成员”,分类器304使用它来识别话语。错误转录分析器312在候选类成员和候选错误转录中具有增加的置信水平,并且将预期类成员放置在类中以加速证据累积。错误转录分析器312计算中间置信水平,该中间置信水平超过第一中间阈值,但是低于错误转录和将要被添加为该类的识别成员的候选类成员所需的第二阈值。分类器304使用超过中间阈值的预期或候选类成员来产生***响应313,如同它是被识别的类成员一样,或者进入与用户的交互式对话,例如“我想你想要做X。这是正确的吗?,其中X是该类的正确***响应。如果是肯定的话,用户响应会添加证据,即候选类成员和候选错误转录应该添加到类中。
作为操作上述***的配置步骤,***能够识别并可能响应的所识别的话语的集合或“类别”被创建并存储在类存储装置309中。这些集合在文本分类器的意义上可以被认为是“类”,诸如在Watson自然语言分类器或类似的分类器中使用的那些类。该类由一组成员构成,该成员构成了基本上相同的话语的各种方式。例如,具有模板问题的类“我如何进入浴室?”可具有替代实例:“浴室在哪里?”、“哪条路到浴室?”、“哪条路到洗手间?”等等。在一些实施例中使用类的手动创建,但是如下所述,在一些实施例中,存在一组可以扩展手动创建的类的自动技术。而且,如在此所述,错误转录分析器312基于重复发生的错误转录提供新的类成员。
当语音识别***将说出的话语翻译成单词时,它可能错误地转录话语中的一个或多个单词。如上所述,这称为错误转录或转录错误。在本发明的优选实施例中,如果对话语中N个单词中的N-1个单词的类成员中的一个类成员发生“匹配”,即只有一个单词与类成员不匹配,则错误转录分析器将其视为存在不匹配的单词的错误转录的证据。错误转录分析器用来递增证据的一个规则是,对于给定的N-1(匹配单词的数量),N(成员中的单词数量)越大,则存在错误转录的证据越多。在本发明的实施例中,另一个规则是类成员中的单词与候选错误转录之间的语音相似性越接近,则存在错误转录的证据越多。典型的错误转录将是如下单词,该单词与类成员中相同位置处的预期单词具有相似的声音。在许多情况下,候选类成员中的单词或短语听起来类似于类成员中的单词或短语,否则语音识别***将不会产生错误转录。
因此,在上述情况下,假设语音识别***转录了“哪个叫醒(wake)是洗手间?”而不是“哪条路(way)到洗手间?”,则错误转录分析器认为这是“唤醒”可能是对“路”的错误转录的一些证据。发生同样错误转录的实例越频繁,收集的证据就越多,并且错误转录分析器处于错误转录中的置信度越大。在某些时候,错误转录分析器如此自信超过了阈值是错误转录。在使用话语类的本发明的实施例中,候选类成员被添加到类中,并且***执行动作,例如口头答复,就好像它实际上识别出“哪条路到洗手间?”。
在本发明的实施例中,在较低的置信水平下,***可以执行第二动作,例如,要求澄清,例如说“我没有听到,你是否询问去洗手间的方向?”在本发明的其它实施例中,可以存在第一较低的中等置信水平的阈值,其中候选类成员被添加到类中作为“试用”成员。***将在为类成员执行适当的操作时收集用户响应,并将这些响应反馈给错误转录分析器。因此,指示接受***响应的用户响应将增加错误转录的置信度,而指示拒绝***响应的用户响应将降低错误转录对于类成员的置信度。随着置信水平增加,因为用户继续接受***响应,所以置信水平超过第二更高水平,并且候选类成员从试用状态转换为永久状态作为类的类成员。
本发明的实施例使用机器学习来识别从语音识别***生成的语音文本的错误转录。在本发明的实施例中,具有相似含义的话语类用于与用户交互。类包括一组成员话语,每个成员话语U_i由相应数量的N_i个单词组成。当转录匹配一些但不是所有这些单词(例如N_i-1)并且在成员话语中在给定的时隙(例如第j个时隙)中使用单词Y代替单词X时,该转录被采用作为针对单词X的单词Y的错误转录的一些证据。
***越多地看到在这个或其它已知的话语中转录为Y的预期话语X,则错误转录的证据就越多。如上所述,一个规则是具有单个可疑错误转录的单词的特定话语中的单词数量N_i越大,则假定错误转录的证据越多。
本发明的实施例允许通过相同或类似说话者的知识来辅助错误转录置信度。相同的说话者或类似的说话者更可能以相同或相似的方式错误发音或使用单词。可以使用的一种相似性度量是检测到说话者具有相同的L1语言,即相同第一语言的母语说话者。另一种相似性度量是用户共享相同的环境,例如工作场所或组织,并且将倾向于使用相同的词汇。在本发明的实施例中,针对不同用户或不同用户类存储不同类的成员话语。本发明的实施例利用基于用户的规则来添加错误转录的证据。
本发明的实施例允许通过相同或类似环境的知识来辅助错误转录置信度。虽然与上述相同工作场所或组织的用户存在一些重叠,但在该类别中,相同用户将在不同环境中使用不同的单词。与工作环境相对的在家庭环境中使用的单词往往会有所不同。此外,某些类型的错误转录在不同类型的环境中更普遍,例如,在嘈杂环境中的***错误。在本发明的实施例中,针对特定环境或环境类型存储不同类的成员话语。本发明的实施例使用基于环境的规则来添加错误转录的证据。
本发明的其它实施例允许通过单词和可疑错误转录的单词是否具有一定程度的语音相似性的知识来辅助错误转录置信度。
在本发明的实施例中,在一个类成员中对给定单词的错误转录被认为是在使用相同单词的其它类成员中对该单词的错误转录的证据。在这些实施例中,在类成员中实际遇到错误转录之前,可以预期地累积证据。例如,在第一类成员中,单词“彻底(thorough)”一词可能被误译为“行(row)”或反之亦然。在本发明的实施例中,***将累积一些,优选较少的证据给分享错误转录的(多个)单词的其它类成员。本发明的实施例还可以在其它类中累积这些单词的证据。实施例中的一些实施例中的规则指示与同伴类成员相比在其它类中的话语中累积较少证据。
本发明的其它实施例使用正则表达式来允许来自潜在匹配的现有类成员的候选类成员中的不同单词顺序。在候选类成员中可允许不同的单词顺序,但是将意味着存在较低的信号强度,即对候选错误转录是真正的错误转录的较低置信度。
在本发明的实施例中,错误转录分析器还考虑用于解释混淆单词的环境、地理接近度和态势感知。例如,诸如“哪条路到洗手间(restroom)?”的表达可以很容易地与表达“哪条路到餐厅(restaurant)?”混淆。如果一个人在驾驶同时发出该表达,第一环境或环境类型,则第二表达更可能是正确的,即该人正在寻找餐馆。如果在办公空间内发出该表达,则第一表达更可能是正确的。
同样,另一对令人困惑的陈述是:“让我们动起来吧”以及“我们来看电影”。可以基于诸如向谁说出相应句子的上下文来区分这两个句子。办公室经理更可能是对他/她的员工说第一句话,而第二句更有可能在两个朋友之间说。
图4中示出了本发明的实施例的流程图。在步骤401中,设置最小数量的转录错误。因此,在一个实施例中,MISTRANSCRIP_MIN_SEEN=minimum#的值被设定为在使候选错误转录或候选类成员“被识别”之前必须看到的相同错误转录的错误转录实例的数量,即,在其上***将采取动作的数量。在步骤403中,设置存在转录错误的置信水平的阈值。因此,MISTRANSCRIP_THRESH的值=这样的概率/置信度,高于该概率/置信度,假定识别的单词的***建议是错误转录。设置两个阈值,因为每个候选错误转录实例收集的证据数量不同。错误转录的每个实例可能在候选类成员和现有类成员之间具有不同的上下文和不同量的匹配和不匹配的单词。
在实例可以被认为是候选错误转录之前设置其它值,诸如每个候选类成员允许的转录错误数量,例如,在一个优选实施例中,设置MAX_FRACTION_MISTRANSCRIBED=每个话语允许的错误转录的单词的最大分数。如果单个候选错误转录中存在太多候选错误转录,则不太可能存在所识别的话语是类成员的充分证据。在替代实施例中,设置不同的阈值。
在步骤405中,采用***可以响应的一组类来初始化自然语言分类器。在本发明的实施例中,还在分类器中初始化一组同义词组。同义词组是可以替换类中的类成员的等效单词或短语的集合。以该方式,可以扩展类成员,而无需将类成员的每个可能变体列为单个类成员。类集合中的每个类与所谓的意图相关联,并且每个意图被映射到***在识别意图时采取的响应。
当话语被提交给***时,步骤407,在一个实施例中,识别语音,并且如果分类器确定话语与类成员匹配,步骤409,则将该类的适当响应返回给用户,步骤411。在本发明的其它实施例中,不是精确匹配,而是使用置信水平来确定是否应该返回响应。例如,响应由分类器评估,针对每个类给出前T个类和相关联的置信度CONF_i。CONF_0是具有最高置信度的类。当CONF_0超过阈值THRESH时,分类器***响应它知道与相关联类的意图相关联的***响应,步骤411。例如,如果意图是“洗手间方向”,则***响应将提供去洗手间的方向。在本发明的实施例中,如果不存在精确匹配或者如果置信度不超过阈值水平,则***将进入询问模式,其中例如通过询问用户澄清问题并且分析响应于问题而做出的用户话语,从用户接收更多信息,步骤410。
接下来,确定是否存在候选转录错误,步骤412。在一些实施例中,该步骤由分类器执行并传递给错误转录分析器。在其它实施例中,所有识别的话语被传递给错误转录分析器,该错误转录分析器将确定是否发生转录错误。下面更详细地讨论确定错误转录的过程。如果存在转录错误,则存储转录错误及其在类成员中的位置,步骤413。如果不存在,则***返回以监听其它用户话语。
由于错误转录分析器在新实例中接收到错误转录并且错误转录在用户话语中重新出现,因此错误转录分析器将累积所识别的单词是错误转录的越来越多的证据。每个实例都可能提供不同数量的证据。如果除了一个单词之外的所有单词都与类成员匹配,则在本发明的实施例中,这将比话语中单词中的若干单词与类成员不匹配的实例更有证据。随着证据累积,置信水平将满足错误转录的阈值,步骤415。一旦置信水平超过阈值,具有错误转录的类成员被存储为类成员的替代形式。在使用同义词组的本发明的实施例中,可以将错误转录存储为类的同义词组的一部分。其它实施例使用其它部件来存储错误转录作为(多个)原始单词的有效替代。
图5示出了用于添加新的类成员的本发明的一个实施例的流程图。在所示实施例中,候选类成员的中间置信水平用于向用户发送***响应并递增错误转录的证据。分类器向错误转录分析器(未示出)发送包含候选错误转录、候选类成员和对候选错误转录的***响应的用户响应的消息。
在步骤501中,由错误转录分析器从分类器接收错误转录。在步骤503中接收用户响应。在步骤505中,识别具有类成员的错误转录的位置。例如,每当分类器检测到类成员并且逐字转录与最紧密匹配的类实例中的N个单词中的N-k个单词相匹配,并且在话语的转录中也使用N个单词,令非匹配的单词对由(w_{i_j},a_{i_j})表示,其中存在k个索引{i_j}。在本发明的实施例中,对(w_{i_j},a_{i_j})以潜在的错误转录的散列存储。例如,a_{i_j}是单词w_{i_j}的潜在错误转录,其中单词w_{i_j}出现在类实例中。在一些实施例中,错误转录的位置是从分类器接收的信息包的一部分,然而,在其它实施例中,通过错误转录分析器执行确定。
除了单词对之外,在本发明的实施例中,错误转录分析器存储三个附加值。在步骤507中,***存储分类器在错误转录的假设下响应的次数,并且给出的答案似乎已被用户接受。在步骤509中,***存储分类器在假定错误转录时已响应的次数,但是给出的响应似乎已被用户拒绝。在步骤511中,***存储检测到错误转录的次数,即,在顶部的类实例中的单词的w_{i_j}->a_{i_j}与转录中的替代单词之间存在直接对应关系,但顶部的类中的***置信度不超过THRESH(中间阈值),因此***没有给出响应。
在一个示例中,***存储(w_{i_j},a_{i_j},5,2,4),意味着5次错误转录的假设导致用户接受的响应,两次错误转录的假设导致用户拒绝响应,以及4次似乎听到了a_{i_j}代替单词w_{i_j},但是顶部的类中的分类器置信度没有超过THRESH_1,因此没有给出***响应。在该说明性实施例中,错误转录散列中的一般条目由(w,a,CO,IN,NO)给出-其中w=正确的单词,a=潜在的mi转录的单词,CO=正确的计数,IN=不正确的计数,以及NO=无响应计数。
该过程继续,直到话语的顶部的类阈值超过较高的阈值水平THRESH_2,步骤513,这意味着机器学习***对于作为替代类成员存储的错误转录具有足够的置信度,或者不存在表示仍有待替换的候选错误转录的剩余的单词对(w_i,a_i)。
注意,在具有5元组(w_i,a_i,CO_i,IN_i,NO_i)的话语中可能存在作为候选错误转录a_i的若干单词。在该情况下,迭代该过程,其中以校正中的置信度的降序进行替换a_i->w_i,即以CO_i/(CO_i+IN_i)的降序进行。只要错误转录的单词数量M和单词总数量N不使得M/N>MAX_FRACTION_MISTRANSCRIBED,该过程就会继续。
在本发明的不同实施例中,可以存储特定于每个用户、用户类、特定环境(例如位置)或环境类型的类成员。根据特定用户训练类成员的权衡是,对于来自单个用户的识别语音的较少样本,训练将更准确地针对用户可能进行的特定类型的错误转录,这可能意味着机器学习将花费更长时间训练而不是与多个用户一起训练。根据用户类的训练具有更多可识别语音样本的优点,并且从而更快地进行机器学习,但存在可能将相应用户错误转录为用户类的成员,或者错误处理特定于特定用户的错误转录的风险。
根据特定环境或环境类型训练类成员对于获取比从单个用户获取的语音样本更多的语音样本也是有用的。与安静的环境相比,环境类型可能包括嘈杂的环境。可替代地,环境类型可以是某些活动发生的环境,例如汽车、家庭、工作或学校。***必须按类型对环境进行分类,环境类型可能需要用户输入,例如,确认环境类型。可替代地,***可以使用地理定位输入和映射数据来对环境进行分类,客户端数据例如是来自公司桌面或个人拥有的智能手机的语音话语,客户端设备是否移动,伴随语音样本的环境背景噪声。类成员也可以根据特定的环境/位置(例如XYZ公司总部或Joe的家)进行训练。
图6示出了本发明的实施例的流程图,其中根据用户和环境特征训练类成员。在本发明的实施例中,为相应用户训练和存储不同的类,即类成员集合,并为不同的环境存储不同的类。在其它实施例中,为特定环境中的特定用户存储类。相同的现有类成员存在于不同的用户和环境类中,随着证据累积,新的候选类成员(基于现有的类成员)将在不同的类中具有不同量的证据。因此,当超过相应的阈值时,新的候选类成员将成为一些类而不是其它类中的类成员。该图还用于示出在何处使用上下文来计算为类成员的候选错误转录而累积的证据量。
在步骤601中,接收新的候选类成员数据,即,与上述示例类似,属于相应类的候选类成员已被识别为候选错误转录。步骤603-613接收用于确定新候选成员和候选错误转录属于哪些类以及确定新候选成员和新候选错误转录的上下文的数据。在步骤603中,接收用户信息。用户信息可以采用多种形式。在本发明的实施例中,登录信息标识用户。作为注册过程的一部分,用户输入了诸如姓名、性别、种族等个人信息。在本发明的其它实施例中,用户信息是用于识别和分类用户的生物度量数据。在语音识别期间,***可以根据语音特征(例如音质)做出假设,口音符合种族群体。最后,***可以在训练阶段期间进入交互式对话,以询问关于身份、种族、工作角色等的问题。在针对各个用户训练和存储类的实施例中,用户信息用于在步骤605中确定用户身份。在本发明的实施例中,用户信息用于在其中为用户类训练和存储类的步骤607中确定用户类。用户类是族群、组织成员组或可能类似地使用单词(即导致类似的错误转录)的其它用户组。
在步骤609中,接收环境信息。在本发明的实施例中,环境信息是地理定位信息,可选地由地图信息增强。在其它实施例中,环境信息包括用语音捕获的背景噪声,指示安静或嘈杂的环境,或由GPS或加速度计捕获的移动信息,指示诸如车辆的移动环境。在本发明的一些实施例中,环境信息用于在步骤611中唯一地确定环境标识。在其它实施例中,环境信息用于在步骤613中确定环境类型。在某些独特的环境中,诸如工作场所或学校,使用特定术语,并且因此不同用户会发生相同的错误转录。在相同环境类型的环境中,例如,嘈杂的环境,将倾向于发生相同的错误转录,例如,背景噪声被错误地识别为语音。在本发明的实施例中,环境信息还可以用于确定用户类,例如,其中位置与用户类相关联。
尽管未示出,如上面在其它实施例中所提到的,也可以接收问题信息,其对于确定发出新候选成员的上下文是有用的。通过将最近的话语与当前的话语进行比较,***可以确定候选的错误转录是真正的错误转录的概率。在本发明的其它实施例中接收其它数据。
一旦***确定新候选类成员和候选错误转录属于哪些类,***就计算每个特定类的证据有多强,步骤614。例如,如果候选类成员和候选错误转录由特定用户在特定环境中发出,在本发明的实施例中,则对于针对该特定用户或该特定环境训练和存储的类,证据将比针对用户类和用户和环境分别属于的用户类和环境类型的类成员更大。通过能够同时根据用户、用户类、环境和环境类型训练类成员,可以允许***拥有更多样本并更快地进行训练。它还允许***在特定环境中为特定用户提供经过专门训练的类成员,这对于检测错误转录将是最准确的。也就是说,在本发明的实施例中,针对用户和环境特征的特定组合来训练类。候选类成员和候选错误转录的上下文,例如位置、问题信息,也用于本发明的实施例中,以确定应该为每个类中的类成员累积的证据量。
接下来,在步骤615中,确定是否已经为特定用户类的错误转录收集了足够的证据。如果是,则在步骤617中,将具有错误转录作为类成员中的原始单词的替换的新的类成员添加到类中。如果不是,则在步骤619中,递增用户类中的错误转录的累积证据。从步骤617示出虚线,指示即使当证据超过用户类的阈值时,仍然可以递增用户类的累积证据。
接下来,在步骤621中,确定是否已经为特定环境类的错误转录收集了足够的证据。如果是,则在步骤623中,将具有错误转录作为类成员中的原始单词的替换的新的类成员添加到类中。如果不是,则在步骤625中,递增环境类型中的错误转录的累积证据。从步骤623示出虚线,指示即使证据超过环境类型的阈值,也可以递增累积证据。
在该图中,为了便于说明,仅示出了针对特定用户和特定环境的决定。然而,在替代实施例中,针对用户所属的用户类的每个用户类和环境所属的环境类型以及特定用户/环境组合的类做出类似的决定。
在本发明的实施例中,加载所有类以用于训练。然而,当分类器用于识别类的类成员是否被识别时,在例如识别用户和环境的本发明的实施例中,分类器将仅使用特定用户和/或特定环境的所选类组。在分布式环境中,其中客户端用于从多个个体用户收集语音样本并与其交互,能够通过机器学习从多个用户中的所有用户训练类,但是仅使用最关注的类用于用户和环境允许更快的训练和更好的区分。
在本发明的其它实施例中,一旦开始针对特定环境/用户组合训练类,则错误转录分析器停止加载用于训练的其它类。例如,一旦用户/环境组合达到期望的置信水平,不一定是将类成员添加到类中的足够高的置信水平,则响应于来自特定用户/环境组合的候选错误转录,其它类停止被训练。
在替代实施例中,可以不执行所列出的步骤中的一个或多个步骤。例如,在仅根据用户信息仅存储类成员的情况下,将不执行与环境相关的步骤。在仅为单个用户存储类成员的情况下,则不执行用户类步骤。
在图7中,示出了用于存储新的候选错误转录的过程。如上所述,错误转录可以是替换错误,其中语音识别***用不正确的单词替换发出的单词;***错误,例如其中***识别“垃圾”话语,例如呼吸、背景噪声“嗯”;或者删除错误,其中发音的单词中的一个单词不会出现在转录中。这些类型的错误中的每一种错误都可能表示不同的错误转录。另外,在本发明的实施例中,每种类型的错误转录(替换、***、删除)将不同地存储。
在步骤700中,检测新的候选错误转录。***首先在步骤701中确定错误转录是否是替换错误。如果错误转录是替换错误,则在候选类成员中将与作为潜在替代的类成员具有相同数量的单词。如果不是,则在步骤703中,***确定错误转录是否是删除错误。如果转录是删除错误,则候选类成员中缺少来自现有类成员的一个或多个单词。如果转录错误不是删除错误,则***在步骤705中确定它是否是***错误。为了简化说明,仅示出了纯替换错误、纯删除错误和纯***错误的测试。然而,在本发明的替代实施例中,执行其它类型转录错误的其它测试。例如,在候选类成员内,可以存在相同种类或不同种类的多个错误转录,例如,两个替换错误,或一个替换错误和一个***错误。
一旦***确定候选类成员中有哪种类型的候选错误转录,就使用适当类型的转录错误符号来跟踪证据。在步骤707中,替换符号用于替换错误。以上结合图5讨论了该符号。类成员内的错误转换的位置被标识为{i j},并且非匹配的单词对被表示为(w_{i_j},a_{i_j})单词对,***响应并且被接受的次数,***响应和被拒绝的次数,以及检测到错误转录但***没有给出响应的次数。在该说明性实施例中,错误转录散列中的一般条目由(w,a,CO,IN,NO)给出-其中w=正确的单词,a=潜在的错误转录单词,CO=正确计数(接受),IN=错误计数(拒绝),以及NO=无响应计数。
在步骤709中,使用删除符号。由于该情况,候选类成员中没有单词,单词对将被指定为(w_{i j},0_{i j})以指示在候选类成员中没有对应于单词w的单词。在该情况下的错误转录散列由(w,0,CO,IN,NO)给出。
类似地,在步骤711中,如果检测到***错误,则使用***符号。表示***的示例符号是(0_{i j},w_{i j}),相关联的错误转录由(0,w,CO,IN,NO)给出。
一旦转录错误证据递增到为类成员的转录错误累积的证据,步骤713,则该过程结束,步骤715。
与第一话语成员相比,错误转录是关于所接收的话语中的单词的替换、删除或替换,与第一话语成员中的第一时隙相比,所接收的话语以第一方式变化。随着证据由错误转录分析器递增,即所接收的话语是在第一时隙以第一方式进行错误转录的证据,它将超过阈值,并将第二话语成员添加到该组话语成员以供语音识别***使用。与第一发声成员相比的第二发声成员,第二发声成员使用迄今为止在第一发声成员中的第一时隙处被识别为“错误转录”的改变。请注意,当转录错误是***或删除错误时,生成的第二话语成员中的总时隙数会略有不同,***错误会有更多的时隙,并且删除错误会有更少的时隙,但是变化仍然被认为是第一话语成员的第一时隙。
图8是示出用于递增证据的流程图,该证据即,一个类成员中的错误转录的单词是错误转录的单词是相同类的另一个类成员中的相同单词的合法替代的证据。在单个实例中在长类成员中找到单个错误转录,即所有其它单词匹配被认为是本发明的一个优选实施例中的错误转录的有力证据。然而,在本发明的实施例中,一个类成员中的错误转录的证据是一些,优选地较少的证据,即错误转录也是其它类成员中的有效替代。
该过程开始于步骤800,其中为类中的第一类成员识别候选错误转录。接下来,在步骤801中,***确定错误转录的单词是否被相同类中的另一个类成员共享。如果是,则做出一系列决定以确定证据递增其它类成员的错误转录的单词有多强。例如,在步骤803中,***确定错误转录是否来自相同用户。如果是,则将是比来自另一个用户的错误转录更有力的证据。作为另一个示例,如果在相同的环境中接收到错误转录,步骤805,与在另一个环境中接收到错误转录相比,它将是更有力的证据。另外,如果被认为具有相同第一语言(即L1语言)的两个用户接收到错误转录,则将其视为比具有不同L1语言的个人接收到错误转录的更有力的证据。如上所述,类成员中的单词与错误转录之间的语音相似性也将是证据。而且,如上所述,与候选错误转录的数量相比,正确识别的单词的数量可以是要添加的证据的数量的因素,但是因为这是“二手”因素,所以它会比类成员本身的错误转录证据少。诸如用户是否在相同用户类中或环境是否是相同的环境类型的其它决定以及其它测试可以包含在本发明的实施例中。
在步骤807中,递增了所确定的证据,即,错误转录的单词是另一个类成员中的合法替代。如果有其它类成员,步骤809,则该过程重复,直到没有其它类成员为其累积证据。该过程在步骤811中结束。
图9是示出用于递增证据的流程图,该证据即,来自一个类的错误转录的单词是错误转录的单词是不同类的类成员中的相同单词的合法替代的证据。该过程在步骤901中开始,其中从一个类确定错误转录的单词,并且***确定是否应该将其视为其它类中的类成员的错误转录的证据。在本发明的一个实施例中,来自不同类别的类成员的错误转录被认为比来自相同类的错误转录的证据少。尽管如此,它仍然是一些证据,因为特定用户可能会以相同的方式发出相同的单词,而不管其中单词发生的类。因此,***将执行与上述类似的决定。在步骤903中,***将确定错误转录的单词是否出现在新类的类成员中,新类是与检测到错误转录的类不同的类。在步骤905中,***确定相同用户是否发出了错误转录。在步骤907中,***确定是否在相同环境中发出了错误转录。另一个决定是,相同的错误转录是否已被发出阈值次数。所有这些因素都用于确定应该递增的证据量,即错误转录的单词是来自不同类的其它类成员中的有效替代。其它测试可用于确定是否应将证据添加到类成员。
接下来,在步骤903中,确定是否存在要检查的另一个类成员。如果是,则过程返回到步骤903。接下来,在步骤905中,确定是否存在要检查的另一个类,如果不是,则过程结束,步骤917。
在图10中,示出了使用语音识别***获取附加证据的本发明的一个实施例的流程图。在本发明的一个实施例中,当转录匹配单词中的N_i-k个单词并且已知k个剩余单词有可能是错误的转录,但是对此从未见过相关联的单项错误转录的一些子集时,该***经由文本到语音子***合成地创建仅具有错误发音的单个单词的话语的音频流,并将该流馈送到语音识别引擎以查看是否校正了单个单词的错误转录。如果已校正,则会累积错误转录的附加证据,而不是其它证据。本发明的该实施例利用了使用滑动N-gram窗口的语音识别***的特性。在此类语音识别***中,借助于其隐藏的马尔可夫模型中的滑动N-gram窗口,引擎自动校正一些单词,否则将是一次一个单词地进行转录的错误转录。另一方面,一些语音识别引擎提供逐字转录,其不太精确,但比使用滑动N-gram或其它校正手段以一次输出话语短语的转录更快。逐字转录通常由***使用,该***必须在听到单词/短语时立即响应,并且不能等待指示完成话语的暂停。因此,通过将用于快速***响应的逐字语音识别引擎与滑动N-gram语音识别引擎配对,可以为新的类成员累积证据以供逐字引擎使用。
将逐字转录与一次发声的转录进行比较提供许多可能的错误转录的示例。例如,在一个话语中有两个或更多可疑错误转录,例如句子是AA......XX......YY......BB的形式,并且可疑正确版本是AA......QQ......RR......BB,其中QQ被认为可能是针对YY的XX和RR的校正。然而,假设语音识别引擎从未识别出.......QQ......YY......或......XX......RR......以及之前识别的所有话语仅具有单一替换,因此证据是间接的。在该情况下,***生成合成语音***(使用文本到语音***)使用N-gram窗口或其它校正机制来馈送AA......QQ......YY......BB和AA......XX......RR....BB进入语音识别***,以查看话语是否被识别。这将是单一和双重替换的证据。如果它们被如此识别,则存在支持双重转录的附加证据,否则不支持。
参考图10,在步骤1001中,接收具有多个错误转录的话语。列举了一组错误转录。在步骤1003中,选择下一个错误转录。在步骤1005中,***生成新的合成话语,其包含特定类成员的下一个错误转录。在优选实施例中,在新的合成话语中仅使用来自该组错误转录的单个错误转录。在步骤1007中,新生成的合成话语被发送到语音识别***,该***使用N-gram窗口或其它校正机制来查看话语是否被识别,即被校正。判断语音识别是否将合成的话语识别为类成员,步骤1009。如果不是,则该方法继续进行以查看是否存在另一个错误转录。如果是,则在步骤1011中,累积证据,即对于类成员存在错误转录,并且因此应该添加新的类成员。在步骤1013中,***确定在话语中是否存在另一个候选错误转录。如果是,则该过程返回到步骤1003。如果不是,则该过程结束。
该过程扩展到该类内的其它类成员以及在其它实施例中具有相同可能错误转录的单词的其它话语。在这些实施例中的一些实施例中,规则将用于比最初用该组多个错误转录识别的类成员累积更少的其它类成员和其它话语的证据。
在本发明的实施例中,***通过识别新短语并且然后与用户一起输入交互式问题模式来将新的类成员添加到类中,以确定新短语属于现有类之一。
在本发明的实施例中,***管理员将为给定类定义一组类成员。然后,除了由于错误转录而添加的新的类成员之外,***将使用同义词组或交互式问题模式将新的类成员添加到类中。
虽然已经描述了优选的操作环境和用例,但是在此的技术可以用在期望部署服务的任何其它操作环境中。
如上所述,上述功能可以作为独立方法实现,例如,由一个或多个硬件处理器执行的一个或多个基于软件的功能,或者它可以作为管理服务(包括作为Web服务经由SOAP/XML或RESTful接口)。在此描述的特定硬件和软件实现细节仅用于说明目的并不意味着限制所描述主题的范围。
更一般地,在所公开的主题的上下文内的计算装置每个都是包括硬件和软件的数据处理***,并且这些实体通过网络(诸如因特网、内联网、外联网、专用网络,或任何其它通信媒介或链路)彼此通信。数据处理***上的应用程序为Web和其它已知服务和协议提供本机支持,包括但不限于对HTTP、FTP、SMTP、SOAP、XML、WSDL、UDDI和WSFL等的支持。关于SOAP、WSDL、UDDI和WSFL的信息可从万维网联盟(W3C)获得,该联盟负责开发和维护这些标准;关于HTTP、FTP、SMTP和XML的更多信息可从Internet Engineering Task Force(IETF)获得。
除了基于云的环境之外,在此描述的技术可以在各种服务器端架构中实现或与其结合实现,包括简单的n层架构、web门户、联合***等。
更一般地,在此描述的主题可以采用完全硬件实施例、完全软件实施例或包含硬件和软件元素的实施例的形式。在优选实施例中,模块功能以软件实现,其包括但不限于固件、驻留软件、微代码等。此外,接口和功能可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,该计算机可用或计算机可读介质提供程序代码以供计算机或任何指令执行***使用或与之结合使用。出于本说明书的目的,计算机可用或计算机可读介质可以是能够包含或存储程序以供指令执行***、设备或装置使用或与其结合使用的任何设备。介质可以是电子、磁、光、电磁、红外或半导体***(或设备或装置)。计算机可读介质的示例包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、刚性磁盘和光盘。光盘的当前示例包括压缩盘-只读存储器(CD-ROM)、压缩盘-读/写(CD-R/W)和DVD。计算机可读介质是有形的非暂态的项目。
计算机程序产品可以是具有程序指令(或程序代码)的产品,以实现所描述的一个或多个功能。在通过网络从远程数据处理***下载之后,那些指令或代码可以存储在数据处理***中的计算机可读存储介质中。或者,那些指令或代码可以存储在服务器数据处理***中的计算机可读存储介质中,并且适于通过网络下载到远程数据处理***,以用于远程***内的计算机可读存储介质。
在代表性实施例中,这些技术在专用计算平台中实现,优选地在由一个或多个处理器执行的软件中实现。软件保存在与一个或多个处理器相关联的一个或多个数据存储器或存储器中,并且软件可以实现为一个或多个计算机程序。总的来说,这种专用硬件和软件包括上述功能。
在优选实施例中,在此提供的功能被实现为现有云计算部署管理解决方案的附件或扩展。
虽然以上描述了由本发明的某些实施例执行的特定操作顺序,但是应当理解,此类顺序是示例性的,因为替代实施例可以以不同的顺序执行操作,组合某些操作,重叠某些操作等。说明书中对给定实施例的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以不必包括特定特征、结构或特性。
最后,虽然已经分别描述了***的给定组件,但是普通技术人员将理解,可以在给定指令、程序序列、代码部分等中组合或共享一些功能。
已经描述了我们的发明,如下是我们要声明的内容。
Claims (43)
1.一种用于识别由语音识别***生成的错误转录的方法,包括:
提供一组已知的话语成员以供语音识别***使用,每个话语成员由相应的多个单词组成;
将所接收的话语与该组已知的话语成员内的第一话语成员匹配,所述第一话语成员是具有第一多个单词的最接近匹配的话语成员,其中,所接收的话语中少于所述第一多个的单词与所述第一话语成员中的所述第一多个单词进行匹配,并且与所述第一话语成员中的第一时隙中的第一单词相比,所接收的话语以第一特定方式变化;
向错误转录分析器组件发送所接收的话语;
如果所接收的话语是错误转录的证据,由所述错误转录分析器进行错误转录的递增证据;以及
响应于对于所述错误转录的递增证据超过阈值,如同识别所述第一单词一样处理包含所述错误转录的未来接收的话语。
2.根据权利要求1所述的方法,其中,所接收的话语使用第一单词代替在所述第一话语成员中的第一时隙中使用的第二单词;
其中,如果所接收的话语是针对所述第一单词替换所述第二单词的错误转录的证据,所述错误转录分析器进行错误转录的递增证据。
3.根据权利要求1所述的方法,进一步包括:
响应于将第二接收到的话语与所述第一话语成员匹配,向错误转录分析器发送所述第二接收到的话语,其中,所述匹配对所述第一多个单词匹配,并且所接收的话语中的第二多个剩余单词是候选错误转录;
基于采用假定的正确替换来替换假定为来自所述第一话语成员中的所述第二多个剩余单词的错误转录的第一连续单词组,经由音频流的文本到语音子***生成第一合成话语;
向具有校正特征的语音识别引擎发送所述第一合成话语;以及
响应于所述合成话语对所述第一话语成员的校正,累积所述第一连续单词组是所假定的正确替换的错误转录的证据。
4.根据权利要求1所述的方法,其中,所述错误转录分析器将所接收的话语与具有不同数量的单词以及具有导致针对第一候选错误转录的更大证据的单个第一候选错误转录的相应话语成员匹配,该第一候选错误转录包含不完全匹配所述相应话语成员中的一个或多个连续单词的一个或多个连续单词。
5.根据权利要求2所述的方法,其中,所述错误转录分析器使用如下规则,所述规则基于匹配所述第一话语成员的所接收的话语,在也包括所述第一单词的第二话语成员中对于针对所述第一单词的所述第二单词的错误转录递增证据,其中,针对所述第二话语成员中的所述错误转录而递增的证据量小于针对所述第一话语成员中的所述错误转录而递增的证据量。
6.根据权利要求1所述的方法,其中,所述错误转录分析器基于来自具有在所述第一时隙以第一方式的错误转录的第一用户的多个接收到的话语,针对在所述第一时隙以所述第一方式的所述错误转录递增证据。
7.根据权利要求2所述的方法,进一步包括:如果每次所接收的话语与所述第一话语成员进行匹配时所接收的话语是针对所述第一单词的所述第二单词的错误转录的证据,由所述错误转录分析器进行错误转录的递增证据,使得随着其中所述第二单词被转录以代替所接收的话语中的所述第一单词的每个接收到的话语,对于所述错误转录累积的所述证据越多。
8.根据权利要求1所述的方法,其中,所述错误转录分析器使用如下基于语音的规则:所接收的话语中的第二单词与所述第一话语成员中的第一时隙处的第一单词之间的更大程度的语音相似性导致与如果没有检测到这种语音相似性相比,每个所接收的话语实例递增更大的证据量。
9.根据权利要求1所述的方法,其中,所述错误转录分析器基于来自具有在所述第一时隙处以第一方式的错误转录的第一环境的多个所接收的话语,针对在所述第一时隙处以所述第一方式的所述错误转录递增证据。
10.一种用于识别由语音识别***生成的错误转录的设备,包括:
处理器;
计算机存储器,其保存由所述处理器执行的用于识别由语音识别***生成的错误转录的计算机程序指令,所述计算机程序指令包括:
可操作以提供一组已知的话语成员以供语音识别***使用的程序代码,每个话语成员由相应的多个单词组成;
可操作以将所接收的话语与该组已知话语成员内的第一话语成员匹配的程序代码,所述第一话语成员是具有第一多个单词的最接近匹配的话语成员,其中,少于所接收的话语中的所述第一多个的单词与所述第一话语成员中的所述第一多个单词进行匹配,并且与所述第一话语成员中的第一时隙中的第一单词相比,所接收的话语以第一特定方式变化;
可操作以向错误转录分析器组件发送所接收的话语的程序代码;
可操作以如果所接收的话语是错误转录的证据,由所述错误转录分析器进行错误转录的递增证据的程序代码;以及
响应于针对所述错误转录的递增证据超过阈值,可操作以如同识别所述第一单词一样处理包含错误转录的未来接收的话语的程序代码。
11.根据权利要求10所述的设备,其中,所接收的话语使用第一单词代替在所述第一话语成员中的第一时隙中使用的第二单词;
其中,如果所接收的话语是针对所述第一单词替换所述第二单词的错误转录的证据,所述错误转录分析器进行错误转录的递增证据。
12.根据权利要求10所述的设备,进一步包括:
响应于将第二接收到的话语与所述第一话语成员匹配,可操作以向错误转录分析器发送所述第二接收到的话语的程序代码,其中,所述匹配对第一多个单词匹配,以及所接收的话语中的第二多个剩余单词是候选错误转录;
可操作以基于采用假定的正确替换来替换假定为来自所述第一话语成员中的所述第二多个剩余单词的错误转录的第一连续单词组,经由音频流的文本到语音子***生成第一合成话语的程序代码;
可操作以向具有校正特征的语音识别引擎发送所述第一合成话语的程序代码;以及
响应于所述合成话语对所述第一话语成员的校正,可操作以累积所述第一连续单词组是所假定的正确替换的错误转录的证据的程序代码。
13.根据权利要求11所述的设备,其中,所述错误转录分析器对于针对所述第一单词的所述第二单词的错误转录递增证据,其中,针对发出所接收的话语的第一用户的错误转录的证据大于针对所述设备的其它用户的错误转录的证据。
14.根据权利要求11所述的设备,其中,所述错误转录分析器对于针对所述第一话语中所述第一单词的所述第二单词的错误转录递增证据,其中,针对接收所接收的话语的第一环境的错误转录的证据大于来自由所述设备接收话语的其它环境的错误转录的证据。
15.一种用于数据处理***的非暂态计算机可读存储介质,所述计算机可读存储介质保存由数据处理***执行的用于识别由语音识别***生成的错误转录的计算机程序指令,所述计算机程序指令包括:
可操作以提供一组已知的话语成员以供语音识别***使用的程序代码,每个话语成员由相应的多个单词组成;
可操作以将所接收的话语与该组已知话语成员内的第一话语成员匹配的程序代码,所述第一话语成员是具有第一多个单词的最接近匹配的话语成员,其中,少于所接收的话语中的所述第一多个的单词与所述第一话语成员中的所述第一多个单词进行匹配,并且与所述第一话语成员中的第一时隙中的第一单词相比,所接收的话语以第一特定方式变化;
可操作以向错误转录分析器组件发送所接收的话语的程序代码;
可操作以如果所接收的话语是错误转录的证据,由所述错误转录分析器进行错误转录的递增证据的程序代码;以及
响应于所述错误转录的递增证据超过阈值,可操作以如同识别所述第一单词一样处理包含所述错误转录的未来接收的话语的程序代码。
16.根据权利要求15所述的计算机可读存储介质,其中,所接收的话语使用第一单词代替在所述第一话语成员中的第一时隙中使用的第二单词;
其中,如果所接收的话语是针对所述第一单词替换所述第二单词的错误转录的证据,所述错误转录分析器递增证据。
17.根据权利要求15所述的计算机可读存储介质,进一步包括:
响应于将第二所接收的话语与所述第一话语成员匹配,可操作以向错误转录分析器发送所述第二所接收的话语的程序代码,其中,所述匹配对所述第一多个单词匹配,并且所接收的话语中的第二多个剩余单词是候选错误转录;
可操作以基于采用假定的正确替换来替换假定为来自所述第一话语成员中的所述第二多个剩余单词的错误转录的第一连续单词组,经由音频流的文本到语音子***生成第一合成话语的程序代码;
可操作以向具有校正特征的语音识别引擎发送所述第一合成话语的程序代码;以及
响应于所述合成话语对所述第一话语成员的校正,可操作以累积所述第一连续单词组是所假定的正确替换的错误转录的证据的程序代码。
18.根据权利要求15所述的计算机可读存储介质,进一步包括:
响应于在所述第一话语成员的所述第一时隙处以第一方式的所述错误转录的递增证据超过低于第一阈值的中间阈值,将第二话语成员添加为该组话语成员的临时成员以供所述语音识别***使用的程序代码;
可操作以基于用户对针对所述第一话语成员的***响应的接受,如果所接收的话语是在所述第一时隙处的以所述第一方式的错误转录的证据,由所述错误转录分析器进行错误转录的递增证据的程序代码。
19.根据权利要求16所述的计算机可读存储介质,其中,所述错误转录分析器对于针对所述第一单词的所述第二单词的错误转录递增证据,其中,针对发出所接收的话语的第一用户类中的用户的错误转录的证据大于针对其它用户类中的用户的错误转录的证据。
20.根据权利要求16所述的计算机可读存储介质,其中,所述错误转录分析器对于针对在所述第一话语中的所述第一单词的所述第二单词的错误转录递增证据,其中,针对其中接收所接收的话语的第一环境类型中的环境的错误转录的证据大于来自其它环境类型中的环境的错误转录的证据。
21.一种用于识别由语音识别***生成的错误转录的***,包括用于实现权利要求1-9中任一项中的步骤的部件。
22.一种用于识别由语音识别***生成的错误转录的方法,包括:
提供第一话语成员类以供所述语音识别***使用,每个话语类成员由相应数量的单词组成,其中,第一类由第一共同含义和在识别出所述第一类的类成员的情况下的第一共同***响应来定义;
响应于所述语音识别***将所接收的话语与所述第一类的第一类成员匹配,向错误转录分析器发送所接收的话语,其中,所接收的话语包含与第一类成员相比的错误转录;
如果所接收的话语是所述第一类成员的所述错误转录的证据,由所述错误转录分析器进行错误转录的递增证据;
响应于针对所述第一类成员的所述错误转录的递增证据超过第一阈值,基于所述第一类成员的所述错误转录将第二类成员添加到所述第一话语成员类;以及
响应于识别与所述第二类成员匹配的第二所接收的话语,执行所述共同***响应。
23.根据权利要求22所述的方法,进一步包括:提供多个话语类成员以供所述语音识别***使用,每个话语类成员由相应数量的单词组成,其中,每个相应类由相应共同含义和在识别出该相应类的类成员的情况下的相应共同***响应来定义。
24.根据权利要求22所述的方法,其中,所述第一类成员的所述错误转录是错误转录的单词,所述方法进一步包括:根据针对除了所述第一类成员之外的类成员递增较少证据的规则,针对包含所述错误转录的单词的类中的所有类成员递增证据。
25.根据权利要求22所述的方法,其中,所述第一类成员的所述错误转录是错误转录的单词,所述方法进一步包括:根据针对不是所述第一类成员的类成员递增较少证据的规则,针对包括不是包含所述错误转录的单词的所述第一类成员的那些类成员的所有类成员递增证据。
26.根据权利要求22所述的方法,进一步包括:
提供第一多个类,每个类包含一组话语成员以供所述语音识别***使用,所述第一多个类中的每个类针对相应的用户,其中,所述第一多个类中的每个类由所述第一共同含义和在识别出所述第一多个类的类成员的情况下的所述第一共同***响应来定义;
根据从其接收到所接收的话语的用户,训练所述第一多个类的每个相应类的类成员。
27.根据权利要求22所述的方法,进一步包括:
提供第二多个类,每个类包含一组话语成员以供所述语音识别***使用,所述第二多个类中的每个类针对相应环境,其中,所述第二多个类中的每个类由所述第一共同含义和在识别出所述第二多个类的类成员的情况下的所述第一共同***响应来定义;
根据从其接收到所接收的话语的环境,训练所述第二多个类的每个相应类的类成员。
28.根据权利要求26所述的方法,进一步包括:
向所述第一多个类中的每个类提供一组相同的初始类成员;
基于相同的相应错误转录实例,对于相应用户的类的类成员递增不同的证据量;以及
响应于对于第三用户的第三类成员中的所述错误转录的递增证据超过所述第一阈值,在对于其它用户的其他类成员的递增证据不超过所述第一阈值的同时,将第三类成员添加到针对所述第三用户的话语类成员。
29.根据权利要求27所述的方法,进一步包括:
向所述第二多个类中的每个类提供一组相同的初始类成员;
基于相同的相应错误转录实例,对于相应环境的类的类成员递增不同的证据量;以及
响应于对于第一环境用户的第四类成员的所述错误转录的递增证据超过所述第一阈值,在对于其它环境的其它类成员的递增证据不超过所述第一阈值的同时,将第四类成员添加到针对所述第一环境的话语成员类。
30.根据权利要求22所述的方法,进一步包括:
提供第三多个类,每个类包含一组话语成员以供所述语音识别***使用,所述第三多个类中的每个类针对相应用户类,其中,所述第三多个类中的每个类由第三共同含义和在识别出所述第三多个类中的类成员的情况下的第三共同***响应来定义;
根据从其接收所接收的话语的用户类来训练所述第三多个类的每个相应类的类成员,其中,所述训练基于相同的相应错误转录实例,针对相应用户类的类的类成员递增不同的证据量;以及
响应于针对第一用户类的第五类成员中的所述错误转录的递增证据超过所述第一阈值,在对于其它用户类的其它类成员的递增证据不超过所述第一阈值的同时,将第五类成员添加到针对所述第一用户类的话语类成员。
31.一种用于识别由语音识别***生成的错误转录的设备,包括:
处理器;
计算机存储器,其保存由所述处理器执行的用于识别由语音识别***生成的错误转录的计算机程序指令,所述计算机程序指令包括:
可操作以提供第一话语类成员以供所述语音识别***使用的程序代码,每个话语类成员由相应数量的单词组成,其中,第一类由第一共同含义和在识别出所述第一类的类成员的情况下的第一共同***响应来定义;
响应于所述语音识别***将所接收的话语与所述第一类的第一类成员匹配,可操作以向错误转录分析器发送所接收的话语的程序代码,其中,与所述第一类成员相比,所接收的话语包含错误转录;
可操作以如果所接收的话语是所述第一类成员的所述错误转录的证据,由所述错误转录分析器进行错误转录的递增证据的程序代码;
响应于针对所述第一类成员的所述错误转录的递增证据超过第一阈值,可操作以基于所述第一类成员的所述错误转录将第二类成员添加到所述第一话语类成员的程序代码;以及
响应于识别与所述第二类成员匹配的第二所接收的话语,可操作以执行所述共同***响应的程序代码。
32.根据权利要求31所述的设备,进一步包括:
可操作以提供多个话语类成员以供所述语音识别***使用的程序代码,每个话语类成员由相应数量的单词组成,其中,每个相应类由相应共同含义和在识别出该相应类的类成员的情况下的相应共同***响应来定义。
33.根据权利要求31所述的设备,其中,所述第一类成员的所述错误转录是错误转录的单词,进一步包括:根据针对除了所述第一类成员之外的类成员递增较少证据的规则,针对包含所述错误转录的单词的类中的所有类成员递增证据。
34.根据权利要求31所述的设备,进一步包括:可操作以提供第三多个类的计算机代码,每个类包含一组话语成员以供所述语音识别***使用,第三多个类中的每个类针对相应的用户类,其中,所述第三多个类的不同类基于相同的错误转录实例而递增不同的证据量。
35.根据权利要求33所述的设备,进一步包括:可操作以提供第四多个类的计算机代码,每个类包含一组话语成员以供所述语音识别***使用,所述第四多个类中的每个类针对相应的环境类型,其中所述第四多个类的不同类基于相同的错误转录实例而递增不同的证据量。
36.根据权利要求33所述的设备,进一步包括:可操作以递增针对具有候选错误转录的所有类递增的证据的程序代码,其中,根据用户和环境规则,针对特定错误转录实例,对于相应类递增不同的证据量。
37.一种用于数据处理***的非暂态计算机可读存储介质,所述计算机可读存储介质保存由所述数据处理***执行的用于识别由语音识别***生成的错误转录的计算机程序指令,所述计算机程序指令包括:
可操作以提供第一话语类成员以供所述语音识别***使用的程序代码,每个话语类成员由相应数量的单词组成,其中,第一类由第一共同含义和在识别出所述第一类的类成员的情况下的第一共同***响应来定义;
响应于所述语音识别***将所接收的话语与所述第一类的第一类成员匹配,可操作以向错误转录分析器发送所接收的话语的程序代码,其中,与所述第一类成员相比,所接收的话语包含错误转录;
可操作以如果所接收的话语是所述第一类成员的所述错误转录的证据,由所述错误转录分析器进行错误转录的递增证据的程序代码;
响应于针对所述第一类成员的所述错误转录的递增证据超过第一阈值,可操作以基于所述第一类成员的所述错误转录将第二类成员添加到所述第一类话语成员的程序代码;以及
响应于识别与所述第二类成员匹配的第二所接收的话语,可操作以执行所述共同***响应的程序代码。
38.根据权利要求37所述的计算机可读存储介质,进一步包括:
可操作以提供多个话语类成员以供所述语音识别***使用的程序代码,每个话语类成员由相应数量的单词组成,其中,每个相应类由相应共同含义和在识别出该相应类的类成员的情况下的相应共同***响应来定义。
39.根据权利要求37所述的计算机可读存储介质,其中,所述第一类成员的所述错误转录是错误转录的单词,进一步包括:根据针对除了所述第一类成员之外的类成员递增较少证据的规则,针对包含所述错误转录的单词的类中的所有类成员递增证据。
40.根据权利要求37所述的计算机可读存储介质,进一步包括:
可操作以识别所接收的话语的用户或环境的程序代码;以及
可操作以基于所识别的所述语音识别***的用户或环境选择适当训练的类的程序代码。
41.根据权利要求37所述的计算机可读存储介质,其中,所述第一话语类成员用于特定用户/环境组合。
42.根据权利要求37所述的计算机可读存储介质,其中,根据如下规则累积证据:如果所述错误转录由第一用户类中的两个用户接收,则被认为是与如果从所述第一用户类中的用户接收到第一错误转录并且从第二用户类中的用户接收到第二错误转录相比针对所述第一用户类的错误转录的更强的证据。
43.一种用于识别由语音识别***生成的错误转录的***,包括用于实现权利要求22-30中任一项中的步骤的部件。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/863937 | 2018-01-07 | ||
US15/863,937 US10593320B2 (en) | 2018-01-07 | 2018-01-07 | Learning transcription errors in speech recognition tasks |
US15/863938 | 2018-01-07 | ||
US15/863,938 US10607596B2 (en) | 2018-01-07 | 2018-01-07 | Class based learning for transcription errors in speech recognition tasks |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021295A CN110021295A (zh) | 2019-07-16 |
CN110021295B true CN110021295B (zh) | 2023-12-08 |
Family
ID=67188728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910000917.4A Active CN110021295B (zh) | 2018-01-07 | 2019-01-02 | 用于识别由语音识别***生成的错误转录的方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021295B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11557288B2 (en) | 2020-04-10 | 2023-01-17 | International Business Machines Corporation | Hindrance speech portion detection using time stamps |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208964B1 (en) * | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
CN1841498A (zh) * | 2005-03-30 | 2006-10-04 | 国际商业机器公司 | 使用口头话语验证语音输入的方法 |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN102915733A (zh) * | 2011-11-17 | 2013-02-06 | 微软公司 | 交互式语音识别 |
CN103035240A (zh) * | 2011-09-28 | 2013-04-10 | 苹果公司 | 用于使用上下文信息的语音识别修复的方法和*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10048934B2 (en) * | 2015-02-16 | 2018-08-14 | International Business Machines Corporation | Learning intended user actions |
-
2019
- 2019-01-02 CN CN201910000917.4A patent/CN110021295B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6208964B1 (en) * | 1998-08-31 | 2001-03-27 | Nortel Networks Limited | Method and apparatus for providing unsupervised adaptation of transcriptions |
CN101031913A (zh) * | 2004-09-30 | 2007-09-05 | 皇家飞利浦电子股份有限公司 | 自动文本校正 |
CN1841498A (zh) * | 2005-03-30 | 2006-10-04 | 国际商业机器公司 | 使用口头话语验证语音输入的方法 |
CN103035240A (zh) * | 2011-09-28 | 2013-04-10 | 苹果公司 | 用于使用上下文信息的语音识别修复的方法和*** |
CN102915733A (zh) * | 2011-11-17 | 2013-02-06 | 微软公司 | 交互式语音识别 |
Also Published As
Publication number | Publication date |
---|---|
CN110021295A (zh) | 2019-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11211046B2 (en) | Learning transcription errors in speech recognition tasks | |
KR102447513B1 (ko) | 점증적 대화지식 자가학습 기반 대화장치 및 그 방법 | |
US11037553B2 (en) | Learning-type interactive device | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US7949536B2 (en) | Intelligent speech recognition of incomplete phrases | |
US11450311B2 (en) | System and methods for accent and dialect modification | |
US10614809B1 (en) | Quality estimation of hybrid transcription of audio | |
KR20190046623A (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US10839788B2 (en) | Systems and methods for selecting accent and dialect based on context | |
US20180033426A1 (en) | Acoustic model training using corrected terms | |
US11151996B2 (en) | Vocal recognition using generally available speech-to-text systems and user-defined vocal training | |
US7912707B2 (en) | Adapting a language model to accommodate inputs not found in a directory assistance listing | |
KR20220128397A (ko) | 자동 음성 인식을 위한 영숫자 시퀀스 바이어싱 | |
CN111768789A (zh) | 电子设备及其语音发出者身份确定方法、装置和介质 | |
Chakraborty et al. | Knowledge-based framework for intelligent emotion recognition in spontaneous speech | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
CN110021295B (zh) | 用于识别由语音识别***生成的错误转录的方法和*** | |
US20070088549A1 (en) | Natural input of arbitrary text | |
WO2023148772A1 (en) | A system and method to reduce ambiguity in natural language understanding by user expectation handling | |
US10607596B2 (en) | Class based learning for transcription errors in speech recognition tasks | |
US11632345B1 (en) | Message management for communal account | |
KR20210115645A (ko) | 복수의 언어에 대한 음성 인식을 수행하는 음성 처리 서버, 방법 및 컴퓨터 프로그램 | |
KR102621954B1 (ko) | 관련 지식 유무에 따라 대화모델을 운용하는 대화 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |