CN103714048A

CN103714048A - 用于校正文本的方法和***

Info

Publication number: CN103714048A
Application number: CN201210375808.9A
Authority: CN
Inventors: 张世磊; 刘�文; 包胜华; 陈健; 施琴; 苏中; 秦勇
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-09-29
Filing date: 2012-09-29
Publication date: 2014-04-09
Anticipated expiration: 2032-09-29
Also published as: WO2014048172A1; US9484031B2; US20140136198A1; JP6362603B2; US20140095160A1; JP2015532447A; US9502036B2; CN103714048B

Abstract

本发明涉及语音处理，提供了一种用于校正文本的方法和***。该方法包括：确定一个文本中要校正的目标文本单元；接收用户针对所述目标文本单元输入的参考语音片段；根据所述参考语音片段，确定与所述目标文本单元中的字发音相似的参考文本单元；用所述参考文本单元校正所述文本中的所述目标文本单元中的字。通过本发明，可以使得用户能够容易地通过语音方式校正文本中的错误。

Description

用于校正文本的方法和***

技术领域

本发明涉及语音处理，更具体地，涉及一种用于利用语音处理来校正文本的方法和***。

背景技术

目前，随着信息技术的快速发展，语音应用正越来越受到工业以及学术界的关注。语音应用使得用户能够采用语音搜索因特网，或在便携式设备上用语音进行记录。

虽然目前的语音识别技术的准确率已经大大提高，但受各种因素的影响，所返回结果的准确性仍然远远不够。用户不得不手动地修改识别结果，例如，如果需要改正一个字，用户必须双击这个字，采用文本输入法输入正确的字，这个繁复的过程会降低用户对于使用语音软件的兴趣。一般来说，错误往往发生在词汇表之外的字上或者一些专用字词上。因此，希望提供一种方便用户校正语音识别文本错误的方案。

发明内容

考虑到语音识别过程中，出现的大量错误是同音异义字，或者发音相近的字，本发明提出了一种基于语音处理的校正文本的方法和***。

根据本发明的一个方面，提供了一种用于校正文本的方法，包括，确定一个文本中要校正的目标文本单元；接收用户针对所述目标文本单元输入的参考语音片段；根据所述参考语音片段，确定与所述目标文本单元中的字发音相似的参考文本单元；用所述参考文本单元校正所述文本中的所述目标文本单元中的字。

根据本发明的另一个方面，还提供了一种用于校正文本的***，包括：被配置为确定一个文本中要校正的目标文本单元的装置；被配置为接收用户针对所述目标文本单元输入的参考语音片段的装置；被配置为根据所述参考语音片段，确定与所述目标文本单元中的字发音相似的参考文本单元的装置；被配置为用所述参考文本单元校正所述文本中的所述目标文本单元中的字的装置。

通过本发明，可以使得用户能够容易地校正文本中的错误。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了适于用来实现本发明实施方式的示例性计算***100的框图。

图2显示了根据本发明的一个实施例的用于校正文本的方法的流程图。

图3显示了根据本发明的另一个实施例的用于校正文本的方法的流程图。

图4显示了根据本发明的另一个实施例的用于校正文本的方法的流程图。

图5显示了根据本发明的一个实施例的用于校正文本的***的方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

所属技术领域的技术人员知道，本发明可以实现为***、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件（包括固件、驻留软件、微代码等），还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“***”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

下面将参照本发明实施例的方法、装置（***）和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，这些计算机程序指令通过计算机或其它可编程数据处理装置执行，产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中，这样，存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品（manufacture）。

也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。

图1示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图1显示的计算机***/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图1所示，计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件（包括***存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及***组件互连（PCI）总线。

计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信，和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机***/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机***/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

现在参看图2，图2显示了根据本发明的一个实施例的用于校正文本的方法。

在步骤S210，确定一个文本中要校正的目标文本单元。该文本可以是任何形式的文本，例如，可以是直接来自用户的文本输入，也可以是对用户输入的语音数据的识别文本。根据本发明的一个实施例，在文本是语音数据的识别文本的情况下，该语音数据的识别文本可以是用任何现有技术识别生成的文本。目标文本单元可以包括一个或多个字，应该理解，本发明可以用于各种语言，而不局限于中文，因此本发明中的术语“字”不局限于汉语中的汉字，而是意指任何语言的一个子单元，例如英语中的单词。例如，根据本发明的一个实施例，在中文的情况下，目标文本单元可以是一个要校正的词或句子，其包括一个或多个汉字。或者，在英文的情况下，目标文本单元可以是包含一个或多个单词的词组或者句子。

根据本发明的一个实施例，该确定目标文本单元的步骤可以是通过接收用户的手动选择来实现的，例如，用户可以通过使用鼠标或者在触摸屏上直接选择来确定要校正的目标文本单元。在文本是语音数据的识别文本的情况下，识别文本往往是由所识别出的一组文本单元所组成，其中，文本单元通过单元边界划分。在这种情况下，根据本发明的一个实施例，可以获得所识别出的各个文本单元的置信度，并根据置信度的值来确定要校正的目标文本单元。例如，置信度的值越低，则表明该文本单元出现识别错误的可能性越大，因此，可以首先选择置信度最低的文本单元进行校正。在有些情况下，该文本不包含文本单元的单元边界，此时，确定目标文本单元的步骤还可以进一步包括识别文本的文本单元的单元边界的步骤。

在步骤S220，接收用户针对该目标文本单元输入的参考语音片段。在确定了要校正的目标文本单元之后，用户可以针对要校正的目标文本单元，说出一段语音片段，该语音片段可以是句子，也可以是短语，其中该参考语音片段包含针对目标文本单元的用户认为是正确的文本内容。一般来说，用户可以选择在语音识别中准确率高的、不易出错的短语，例如一些常用的短语，或者具有特定的上下文的短语或句子等。

在步骤S230，根据参考语音片段，确定与该目标文本单元中的字发音相似的参考文本单元。

根据本发明的一个实施例，对于用户输入的参考语音片段，首先进行语音识别，以获得参考文本片段，然后，利用该参考文本片段，确定其中与目标文本单元中的字发音相似的参考文本单元。并且，根据本发明的一个实施例，字的发音相似性可以基于字对应的音素相似度来计算。可以理解，在本说明书中，发音相似也包括发音相同的情况。

根据本发明的一个实施例，在确定参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元时，可以首先基于发音相似性，确定该参考文本片段中的至少一个字与所述目标文本单元中的至少一个字的对应关系，然后，根据该对应关系，确定对应于所述目标文本单元的至少一个字的参考文本单元。

根据本发明的一个实施例，该确定参考文本单元的步骤还可以通过直接将参考语音片段与目标文本单元的发音进行比较来确定二者间的对应关系。例如，基于发音相似性，可以确定所述参考语音片段中与所述目标文本单元中的字发音相似的语音子片段。同时，通过对所述参考语音片段进行语音识别，可以获得参考文本片段。此时，在参考文本片段中则包含了对应于该语音子片段的参考文本单元。因此，可以从所述参考文本片段中获得对应于所述语音子片段的参考文本单元。

在步骤S240，用参考文本单元校正该文本中的目标文本单元中的至少一个字。

由于用户可以选择在语音识别中准确率高的、不易出错的短语或完整语义单元作为参考语音片段，因此经过语音识别后的参考文本片段，其文本的准确率相对来说是比较高的。在这种情况下，用准确率比较高的参考文本单元来校正目标文本单元，则可以有效提高文本校正的准确率及效率。

根据本发明的一个实施例，在存在多个可选的参考文本单元的情况下，还可以根据参考文本单元的置信度，自动选择具有较高置信度的字，或者向用户进行推荐，也可以由用户进行进一步的选择。

根据本发明的一个实施例，在参考文本片段中，可以包括多个与目标文本单元中的字发音相似的参考文本单元。也就是说，为了进一步提高语音识别的准确率，用户对于目标文本单元中的同一个字，可以给出多个不同的提示。例如，对于目标识别单元中的“音”字来说，用户可以同时说出“音乐”、“语音”、“声音”等多个词。在这种情况下，通过语音识别，可能识别出“音”和“英”两个备选参考。此时，可以选择所述多个参考文本单元中的一个，来校正所述目标文本单元中的至少一个字。该选择可以由用户手动选择，也可以由***自动进行选择。例如，对于该多个参考文本单元，可以根据语音识别的情况给出相应的置信度，将置信度最高的一个参考文本单元作为最终的参考文本单元来校正目标文本单元中的至少一个字。

根据本发明的一个实施例，在用户输入的参考语音片段中，可以包括对应于要校正的目标文本单元中所包含的每一个字的内容，也可以只包括对应于其中的部分字的内容，并且，这些内容在参考语音片段中的顺序及先后关系，也可以不同于其所对应的字在目标文本单元中的顺序及先后关系。

下面将以一个中文文本为例来说明根据本发明的一个实施例的方法。

首先，用户希望通过语音方式输入如下语句：“星期五语音组去香木香羊聚餐，大家于上午九点在西二旗城铁集合”，在接收到用户的语音输入之后，对该输入进行语音识别。然而，受到语音识别准确性的限制，语音识别后的结果为：“星期五|育英组|去|项目象牙|聚餐，大家|于|上午九点|在|西二期|城铁|集合”。在该语音识别结果中，出现了几个错误：“育英组”（应为“语音组”）、“项目象牙”（应为“香木香羊”）、“西二期”（应为“西二旗”）。

此时，在存在多个错误的情况下，用户可以通过手动选择的方式，来选择要校正的词。例如，用户可以通过在触摸屏上以画圈的方式，将“育英组”圈定出来，确定为要校正的词。也可以直接利用语音识别后所提供的词边界，对要校正的词进行选择。

然后，用户以语音方式说出句子“语言和音乐相组合”，在该句子中，包含了与“育英组”的语音“yuyinzu”具有相似语音的音节“yu”、“yin”、“zu”。由于“语言”、“音乐”、“组合”等都是字库中的常用词，此时，可以准确地将用户输入的语音识别为文本“语言和音乐相组合”，从而根据发音相似性相应地确定“yu”、“yin”、“zu”分别对应于文本“语”、“音”、“组”，从而将“育英组”校正为“语音组”。

同样，对于“项目象牙”，其正确的文本应为“香木香羊”。在用户选定了“项目象牙”之后，用户说出短语“香味木头和带香味的羊”，从而根据发音相似性确定“xiang”、“mu”、“xiang”、“yang”分别对应于文本“香”、“木”、“香”、“羊”，从而将“项目象牙”校正为“香木香羊”。

同样，对于“西二期”，其正确的文本应为“西二旗”。在用户选定了“西二期”之后，用户说出短语“红旗飘飘”，根据发音相似性确定发音“qi”对应于文本“旗”，从而将“西二期”校正为“西二旗”。

根据本发明的一个实施例，用户输入的参考语音片段可以是针对目标文本单元中的所有字，也可以只针对其中的部分字。例如，在这个例子中，虽然所确定的目标文本单元是“西二期”，包括三个字，用户输入的参考语音片段“红旗飘飘”也可以只针对其中的“期”字。

根据本发明的一个实施例，可以采用本领域任何适当的技术来实现用户输入的参考语音与目标文本单元的发音相似性的比较。例如，可以基于音素相似度，找到参考语音所对应的参考文本中与目标文本单元的发音相似的单元。

下面将以要校正的目标文本单元“育英组”以及对应的参考语音片段“语言和音乐相组合”为例，参考图3详细描述图2中步骤S230的一个实施方式。图3示意性地示出了根据参考语音片段确定与要校正的目标文本单元的字发音相似的参考文本单元的过程。

在步骤S310，对参考语音片段进行语音识别，以获得参考文本片段。例如，对于用户输入的参考语音片段，获得相应的参考文本片段“语言和音乐相组合”。

在步骤S320，解析该参考文本片段对应的音素以及该目标文本单元对应的音素。在该解析过程中，可以将每个汉字分别拆分为声母部分、即第一音素，和韵母部分、即第二音素。对于含双韵母的汉字，可以利用已知的相应技巧将其拆分成两个部分。以汉字“音”和“英”为例，汉字“音”的拼音为是“YIN”，可以分解为两个音素，“Y”和“IN”。汉字“英”的拼音是“YING”，可以分解为两个音素，“Y”和“ING”。

例如，对于目标文本单元“育英组”以及参考文本片段“语言和音乐相组合”，其音素序列如下：

目标文本单元：Y U Y ING Z U

参考文本片段：Y U Y AN H E Y IN Y UE X IANG Z U H E。

在步骤S330中，基于音素相似度，确定参考文本片段中与目标文本单元中的字发音相似的参考文本单元。

应该理解，音素是某一种语言的语音体系中的最小单元。不同的语言或方言具有不同的音素体系。例如，汉语和英语具有不同的音素体系，东北话和上海话也具有不同的音素体系。各语言的音素体系中音素的多寡相差甚多，有十几个的，也有多到一百多的，但都是有限的数目。在各自的语言中，音素与音素之间的相似程度是不一样的。

例如，在汉语拼音中，音素“ING”和音素“IN”相似，但是和音素“AO”不相似。在本发明的方法中，可以基于音素相似度，找出参考语音与目标文本单元中具有相似音素的文本单元。

以汉字“音”和“英”为例，汉字“音”的拼音为是“YIN”，可以分解为两个音素，“Y”和“IN”。汉字“英”的拼音是“YING”，可以分解为两个音素，“Y”和“ING”。然后，比较这两个汉字的音素的相似度。如果这两个汉字的两个音素都分别相同或相似，则认为这两个汉字的音素相似，否则，则认为这两个汉字的音素不相似。在该例子中，它们的第一个音素“Y”是相同的。它们的第二个音素“IN”和“ING”不相同，但是相似。因此，可以认为这两个汉字“英”和“印”的音素相似。从而，基于音素相似度，识别出参考语音片段与目标文本单元中发音相似的部分。

应该理解，基于音素相似度的匹配可以采用各种已知的算法，例如动态时间规整DTW算法、最小单元匹配法、动态规划算法等。

其中，不同音素之间的音素相似度可以预先确定。例如，可以用欧式距离或者巴特查里亚距离来度量音素相似性。容易理解，在以距离度量音素相似度的情况下，音素模型距离值越大表示相似程度越小。音素相似度还可以简单地以相似和不相似的二值判定来度量。

应该理解，所述音素相似度的度量可以预先确定。在本发明的方法中，可以简单地通过查找预先确定的音素相似性表或者数据库来找到音素相似度。

基于音素相似度，对任意两个给定汉字，根据下面的方法来计算字的发音相似度：将两个汉字的第一音素的相似度（距离）加上第二音素的相似度（距离）,其和即为这两个汉字的发音相似度（距离）。当然，也可以将约化后的平均单音素相似度来表示字的相似度。也即，将两个汉字的音素相似度的和除以音素数目2作为这两个汉字的发音相似度。为了简单起见，在本实施方式中，以各音素的相似度之和为两个汉字的发音相似度。

为了简单起见，在本例子中未考虑声调对音素相似性带来的影响。在所示实施方式的启发下，本领域技术人员可以方便地将本发明的方法扩展到包含音调的情况，以应对高精度需求。

DTW算法的原理是现有技术中已知的，在所示出的实施方式的教导下，本领域技术人员容易想到还可以使用DTW算法的其他实现方式来找到目标文本与参考文本之间的最佳匹配路径。

在这里，目标文本单元中的字“育”的音素“Y U”与参考文本片段中的字“语”的音素“Y U”相同，从而确定目标文本单元中的字“英”与参考文本片段中的字“音”对应，目标文本单元中的字“英”的音素“Y ING”与参考文本片段中的字“音”的音素“Y IN”相似，从而确定目标文本单元中的字“英”与参考文本片段中的字“音”对应，目标文本单元中的字“组”的音素“Z U”与参考文本片段中的字“组”的音素“Y U”相同，从而确定目标文本单元中的字“组”与参考文本片段中的字“组”对应。根据所确定的对应关系，从而确定对应于目标文本单元的至少一个字的参考文本单元。在这里，所确定的参考文本单元即为“语音组”。

上文示出了本发明应用于中文的一个具体实施方式。但是应该理解，本发明的方法可以应用于任何语言。基本方法都是以字或单词为基本单元，然后依据基本单元之间的发音相似度，确定参考文本与目标文本之间的对应关系。其区别仅在于基本单元的发音相似度计算稍有不同。例如，中文以汉字为基本单元。每个汉字在声韵母音标体系下都包含两个音素（可看成声母部分和韵母部分）。因此汉字间的相似度可以用声母相似度与韵母相似度之和来表示。但是，更一般地，在其他语言中，基本单位包含的音素数目可能不一样。例如，英语中以单词为基本单位。不同的单词含有的音素数目往往不同。在这种情况下，可以先通过DTW算法找出两个单词之间的最佳音素匹配方式，而后计算单词的发音相似度。对于不同的语言，本发明的方法的其余步骤相同。

下面参考图4详细描述图2中步骤S230的另一个实施方式。与步骤S310一样，在步骤S410，对参考语音片段进行语音识别，以获得参考文本片段。

在步骤S420，基于发音相似性，确定参考语音片段中与目标文本单元中的字发音相似的语音子片段。通过将用户输入的参考语音片段与目标文本单元中的字的发音进行比较，可以确定目标文本单元中的字与参考语音片段中的至少一个语音子片段的对应关系。

在步骤S430，从参考文本片段中获得对应于语音子片段的参考文本单元。由于语音识别后的参考文本片段中包括了对应于语音子片段的参考文本单元。因此，在这种情况下，根据目标文本单元中的字与该语音子片段的对应关系以及参考文本单元与该语音子片段的对应关系，可以获得用来校正目标文本单元中的字的参考文本单元。

可以理解，对于同一个要校正的目标文本单元，为了进一步提高校正的准确率，用户也可以多次输入不同的参考语音片段。对于每个参考语音片段，分别将其与目标文本单元进行比较，获得相应的参考文本单元，并根据所获得的多个参考文本单元，确定最终的用于校正目标文本单元的参考文本单元。

本发明并不限于对语音数据的识别文本的校正，只要文本中的错误是由于具有相近或相同发音的字所导致的，都可以适用于本发明。例如，在汉字的拼音输入法中，常常会由于拼音相同或相近导致错误的文本输入，在这种情况下，也可以使用本发明的方法来校正文本。另外，本发明的校正方法也可以与其他文本校正方法结合使用，以便进一步提高准确率以及效率。

图5示意性地示出了根据本发明一个实施方式的用于校正文本的***500的框图。***500用于执行前文所述的本发明的用于校正文本的方法。***500包括：目标文本单元确定装置510、参考语音片段接收装置520、参考文本单元确定装置530、目标文本单元校正装置540。

根据本发明的一个实施例，目标文本单元确定装置510被配置为确定一个文本中要校正的目标文本单元，参考语音片段接收装置520被配置为接收用户针对所述目标文本单元输入的参考语音片段，参考文本单元确定装置530被配置为根据所述参考语音片段，确定与所述目标文本单元中的字发音相似的参考文本单元，目标文本单元校正装置540被配置为用所述参考文本单元校正所述文本中的所述目标文本单元中的字。

根据本发明的一个实施例，所述文本是语音数据的识别文本。

根据本发明的一个实施例，参考文本单元确定装置530包括语音识别装置550，其被配置为对参考语音片段进行语音识别，以获得参考文本片段，以及参考文本单元确定装置530进一步被配置为确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

根据本发明的一个实施例，参考文本单元确定装置530进一步包括音素解析装置560，其被配置为解析所述参考文本片段对应的音素以及所述目标文本单元对应的音素，其中，参考文本单元确定装置530进一步被配置为基于音素相似度，确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

根据本发明的一个实施例，参考文本单元确定装置530进一步包括语音识别装置550，其被配置为对所述参考语音片段进行语音识别，以获得参考文本片段，其中，参考文本单元确定装置530进一步被配置为基于发音相似性，确定所述参考语音片段中与所述目标文本单元中的字发音相似的语音子片段，以及，从所述参考文本片段中获得对应于所述语音子片段的参考文本单元。

根据本发明的一个实施例，其中，所确定的参考文本单元为多个参考文本单元，其中，参考文本单元确定装置530进一步被配置为接收用户对于所述多个参考文本单元中的一个的选择，用于校正所述目标文本单元中的至少一个字。

根据本发明的一个实施例，所确定的参考文本单元为多个参考文本单元，其中，目标文本单元校正装置540进一步被配置为根据所述多个参考文本单元的置信度，选择用于校正所述目标文本单元中的字的参考文本单元。

根据本发明的一个实施例，该***500进一步包括边界识别装置570，其被配置为识别所述文本的文本单元的单元边界。

根据本发明的一个实施例，目标文本单元确定装置520进一步被配置为：接收用户对于所述文本中的文本单元的选择，以确定要校正的目标文本单元。

根据本发明的一个实施例，目标文本单元确定装置520进一步被配置为获得所述语音数据的识别文本中的文本单元的置信度；以及根据所述置信度确定要校正的目标文本单元。

附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于校正文本的方法，包括：

确定一个文本中要校正的目标文本单元；

接收用户针对所述目标文本单元输入的参考语音片段；

根据所述参考语音识别片段，确定与所述目标文本单元中的字发音相似的参考文本单元；

用所述参考文本单元校正所述文本中的所述目标文本单元中的字。

2.如权利要求1所述的方法，其中，所述文本是语音数据的识别文本。

3.如权利要求1所述的方法，其中，根据所述参考语音片段，确定与所述目标文本单元的字发音相似的参考文本单元包括：

对所述参考语音片段进行语音识别，以获得参考文本片段；

确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

4.如权利要求3所述的方法，确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元包括：

解析所述参考文本片段对应的音素以及所述目标文本单元对应的音素；

基于音素相似度，确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

5.如权利要求1所述的方法，其中，根据所述参考语音片段，确定与所述目标文本单元的字发音相似的参考文本单元包括：

对所述参考语音片段进行语音识别，以获得参考文本片段；

基于发音相似性，确定所述参考语音片段中与所述目标文本单元中的字发音相似的语音子片段；

从所述参考文本片段中获得对应于所述语音子片段的参考文本单元。

6.如权利要求1至5中任何一个所述的方法，其中，所确定的参考文本单元为多个参考文本单元，其中，用所述参考文本单元校正所述文本中的所述目标文本单元中的字进一步包括：

接收用户对于所述多个参考文本单元中的一个的选择，用于校正所述目标文本单元中的至少一个字。

7.如权利要求1至5中任何一个所述的方法，其中，所确定的参考文本单元为多个参考文本单元，其中，用所述参考文本单元校正所述文本中的所述目标文本单元中的字进一步包括：

根据所述多个参考文本单元的置信度，选择用于校正所述目标文本单元中的字的参考文本单元。

8.如权利要求1所述的方法，进一步包括：识别所述文本的文本单元的单元边界。

9.如权利要求1所述的方法，其中，确定所述文本中要校正的目标文本单元包括：接收用户对于所述文本中的文本单元的选择，以确定要校正的目标文本单元。

10.如权利要求2所述的方法，其中，确定所述文本中要校正的目标文本单元包括：

获得所述语音数据的识别文本中的文本单元的置信度；以及

根据所述置信度确定要校正的目标文本单元。

11.一种用于校正文本的***，包括：

目标文本单元确定装置，被配置为确定一个文本中要校正的目标文本单元；

参考语音片段接收装置，被配置为接收用户针对所述目标文本单元输入的参考语音片段；

参考文本单元确定装置，被配置为根据所述参考语音片段，确定与所述目标文本单元中的字发音相似的参考文本单元；

目标文本单元校正装置，被配置为用所述参考文本单元校正所述文本中的所述目标文本单元中的字。

12.如权利要求11所述的***，其中，所述文本是语音数据的识别文本。

13.如权利要求11所述的***，其中，参考文本单元确定装置包括：

语音识别装置，被配置为对所述参考语音片段进行语音识别，以获得参考文本片段，

其中，参考文本单元确定装置进一步被配置为确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

14.如权利要求13所述的***，参考文本单元确定装置进一步包括：

音素解析装置，被配置为解析所述参考文本片段对应的音素以及所述目标文本单元对应的音素；

其中，参考文本单元确定装置进一步被配置为基于音素相似度，确定所述参考文本片段中与所述目标文本单元中的字发音相似的参考文本单元。

15.如权利要求11所述的***，其中，参考文本单元确定装置包括：

其中，参考文本单元确定装置进一步被配置为基于发音相似性，确定所述参考语音片段中与所述目标文本单元中的字发音相似的语音子片段，以及，

16.如权利要求11至15中任何一个所述的***，其中，所确定的参考文本单元为多个参考文本单元，其中，参考文本单元确定装置进一步被配置为接收用户对于所述多个参考文本单元中的一个的选择，用于校正所述目标文本单元中的至少一个字。

17.如权利要求11至15中任何一个所述的***，其中，所确定的参考文本单元为多个参考文本单元，其中，目标文本单元校正装置进一步被配置为：

18.如权利要求11所述的***，进一步包括：边界识别装置，被配置为识别所述文本的文本单元的单元边界。

19.如权利要求11所述的***，其中，目标文本单元确定装置进一步被配置为：接收用户对于所述文本中的文本单元的选择，以确定要校正的目标文本单元。

20.如权利要求12所述的***，其中，目标文本单元确定装置进一步被配置为获得所述语音数据的识别文本中的文本单元的置信度；以及根据所述置信度确定要校正的目标文本单元。