CN1945563A

CN1945563A - 不流利语句的自然语言处理

Info

Publication number: CN1945563A
Application number: CNA2006101421056A
Authority: CN
Inventors: 翁富良; 张奇
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2005-10-04
Filing date: 2006-09-30
Publication date: 2007-04-11
Anticipated expiration: 2026-09-30
Also published as: US7930168B2; EP1772853A1; CN1945563B; US20070078642A1; DE602006018098D1; EP1772853B1

Abstract

包括新处理方法的先进模型被用来作为有效的不流利性鉴别器的部件。该不流利性鉴别器标记被转录语言中的被剪辑单词。语言识别单元和词类标志器、不流利性鉴别器以及语法解析器组合形成能够帮助机器正确解释口语的自然语言***。

Description

不流利语句的自然语言处理

技术领域

[01]一般而言，本发明涉及自然语言处理。特别是，它涉及处理不流利语句。

背景技术

[02]自然语言处理是让计算机按照人的方式解释指令或信息的科学。现在将设定烤箱温度的任务视为一个示例。实际上，任何人都能够理解口语指令“set the oven to three hundred and fifty degrees(将烤箱定为350度)”。而且人们也完全理解某些变化形式，譬如“set the umm burner，I mean oven，to three hundred and fifty degrees(将炉子，噢，我是指烤箱，定为350度)”或者，“set the oven to，you know，like three hundred andfifty degrees(将烤箱定位，你知道，大概350度)”。

[03]但是，即使能够以极高的准确性将说话声音转变为文本单词，控制烤箱的计算机也很难知道口语指令中哪些部分需要忽略。究竟计算机应当如何解释“umm burner，I mean oven”？一个人说“you know，like”究竟是指什么？

[04]自然语言的填充式停顿(“umm”)、***表达方式(“you know”)、不正确语法和语言修复(“burner，I mean oven”)对计算机试图发现人的口语含义是块绊脚石。自然语言处理的研究人员已经采取的研究方法是：计算机处理这些绊脚石的最简单的办法是将它们删除。如果计算机被训练得能够忽略上述被转录语言中的“umm burner，I mean”或“you know，like”，剩下的单词就很容易由传统文本解析器加以解释。

[05]已经投入了很大的力量来开发某种自动***，该***能够鉴别口头语句中那些计算机为了某种目的最好予以忽略或者为了其他目的而要加以使用的组成部分。更具体地讲，已经开发出了鉴别被转录语言中的所谓被剪辑单词的***，这些单词就是计算机不必费心去理解的单词。

[06]Charniak和Johnson[Eugene Charniak，and Mark Johnson，“EditDetection and Parsing for Transcribed Speech(被转录语言的剪辑探测和语法分析)”，Proceedings of the 2nd Meeting of the North AmericanChapter of the Association for Computational Linguistics，pp 118-126，(2001)(本文特此参考编入，下文记为“C&J”)]提出了一个简单的分析被转录语言的体系结构，其中被剪辑单词探测器首先从语句串中删除这些单词，然后，根据被转录语言加以训练的标准统计解析器分析剩下的单词。

[07]为了评估自然语言处理的不同方法和***的性能，许多研究人员(包括Charniak和Johnson)采用语言数据财团(Linguistic DataConsortium)提供的Switchboard语料库(Switchboard corpus)。Switchboard语料库是已经由人工注解员标注的一组大量的转录电话谈话。自然语言处理***的性能可以通过将它生成的结果和人工记录的结果加以比较来加以评价。

[08]自然语言处理***性能的改进部分地取决于设计更好的不流利性鉴别器，剪辑单词探测器就是它的一个最好示例。不流利性鉴别器采用模型来运行，该模型可以包括一组统计加权的特性集，这些特性的作用就像帮助发现不流利性(譬如被剪辑单词)的线索。

[09]生成更好模型和特性集的技术领域是一个成熟的创新领域。该领域中的进展来自研究人员对语言学、统计学和其他学科之间的计算机算法的深刻理解，以及对它们的那些看起来违反直觉的领悟加以综合的能力。

附图说明

[010]图1示意性地表示自然语言处理***；

[011]图2示意性地表示图1***所用的自然语言处理的方法；

[012]图3是表示如何生成不流利性鉴别器的模型的流程图；

[013]图4A、4B和4C分别表示测试语料库中被替换项(reparanda)、修复项和停顿项的长度分布。

[014]图5列出各种调节变量的标号、名称和说明。

具体实施方式

[015]图1示意性地表示自然语言处理***100。该***解释口语单词输入(譬如语句片断102)，并输出计算机可以识别的代码(譬如机器指令104)。该整体***可以让人采用正常人的语言直接对计算机讲话。

[016]***100的主要部件是语言识别单元110、词类标志器112、不流利性鉴别器114和语法解析器118。不流利性鉴别器采用模型116运行。

[017]语言识别单元110将人的讲话声音转录为文本数据。然后这个文本被送到词类标志器112，它将每个文本单词贴上词类(POS)标签，譬如“名词”、“动词”等等。以POS标签注释的文本被输入到不流利性鉴别器114。不流利性鉴别器和它的模型116决定：为了获得改进的计算机分析性能，哪些单词应当从该文本中予以剪辑和忽略。最后，语法解析器118将剪辑后的文本转变为机器指令，即计算机命令。

[018]自然语言处理***100和它的各个部件就代表综合装置。下面的说明主要集中讨论不流利性鉴别器114和它的相关模型116，不过该实施例并不受如此限制。事实上，不流利性鉴别器的性能可以取决于它的模型如何生成。

[019]图2示意性地表示图1的***100中所用的自然语言处理方法200。在图2中，框202代表口语单词发音“I think，you know，I want to.”这些发音会立即被人识别，而且很可能被有把握地简单解释为“I wantto.”。换句话说，对“I think，you know，I want to.”的反应就是干脆忽略“I think，you know，”，只是对“I want to.”作出反应。图2所示的方法(以及图1所示的***)被设计得能够过滤掉被剪辑单词(譬如“Ithink，you know，”)来作为改进机器解释口语准确性的方法。

[020]口语单词发音202被输入语言识别单元110。语言识别单元110将单词发音转变为文本，譬如文本单词序列204，这里不加引号(包含I think，you know，I want to的引号)是为了强调这些单词现在代表文本数据。然后，文本单词被送到词类(POS)标志器112。POS标志器的输出是一系列单词-POS标签二元组，譬如框206中的形式。在框206中，单词‘I’和标志‘prp’配对，单词‘think’和‘vbp’配对，等等。

[021]然后，单词-POS标签二元组序列由不流利性鉴别器114加以处理。不流利性鉴别器确定哪些单词应当被剪辑，即在后续处理中被忽略。框208中的单词-POS标签-剪辑标签三元组表示，诸如‘I’、‘think’、‘you’和‘know’都是被剪辑单词，而‘I’、‘want’和‘to’是正常单词。当语句‘I think，you know，I want to’被送到语法解析器118时，被剪辑单词就被忽略。语法解析器118根据“只有正常单词携带信息”的假设运行。最后，语法解析器118将正常单词转变为指令。作为一个示例，语法解析器118可以将正常单词转变为机器可读指令。在框210中，机器指令用‘execute＞＞I WANT TO’表示。

[022]在图1和图2中，框116是不流利性鉴别器114所采用的模型。该模型代表该不流利性鉴别器用来发现被剪辑单词的线索和策略。实施例的一个方面就在于生成模型的详细方式。对模型设计的理解取决于对口语特点以及对其他话题之间的统计算法的透彻理解。

[023]修复、犹豫和重新开始是口语中常有的事，理解口语需要鉴别这些不流利现象的准确方法。正确地处理语言修复这一任务提出了对口语对话***的挑战。

[024]在实施例中，处理语言修复是从分析目标语料库中被剪辑区域的分布和它们的成分开始的。在该训练数据中，提供了几个特性空间来覆盖这些不流利区域。此外，在实验中也探测了词类体系结构的新特性空间，并扩展了候选库。与C&L中报告的、在Switchboard语料库的训练和测试数据中都包含标点的结果相比，该实施例显著地改进了F评分，而且，与它们最近的、在Switchboard语料库的训练和测试数据中都忽略标点的结果相比，F评分中的出错率也显著下降。

[025]根据常规的定义，语言修复被划分为3部分：被替换项，是被修复的部分；停顿项，是空白部分或填充符；修复/重复项，是替换或重复被替换项的部分。这个定义能够用如下的说话方式作为示例来说明：

[026]在Switchboard语料库中分析语言修复时要注意，Switchboard拥有超过100万个单词，包括陌生人之间关于指定话题的转录电话会话。它全是经过分析的、由其他人分类的不流利说话方式。其他研究人员已经报告了停顿的详细分布，包括感叹词和***语。但是，大多数不流利性涉及所有这三个部分(被替换项、停顿项和修复/重复项)。研究结果表明，在构造用于鉴别被剪辑区域的模式时，所有这三个部分的分布都是必须的。

[027]对被替换项和修复类型而言，分布的计算可以包含标点和不包含标点。为了与C&J报告的、鉴别被剪辑区域时包含标点的基本***(baseline system)加以比较，分布的计算要包含标点。根据定义，停顿类型不包含标点。

[028]图4A、4B和4C表示测试语料库中被替换项、修复项和停顿项的长度分布。Switchboard数据的训练部分中包含和不包含标点的被替换项长度分布402由图4A给出。长度低于7个单词的被替换项占训练数据中那些被剪辑区域的95.98％。在删除标点后，长度低于6个单词的被替换项达到96％。所以只考虑6个以下单词长度的被替换项的模式具有良好的覆盖范围。

[029]Switchboard的训练部分中的修复/重复部分的长度分布404如图4B所示。在该训练数据中，长度低于7个单词的修复/重复项占这种情况的98.86％。如果采用7作为构造修复/重复模式的阈限，会得到极好的覆盖范围。

[030]Switchboard语料库的训练部分中的停顿项的长度分布406如图4C所示。可以看出，绝大多数的长度都是1；这些是最常用的单词，譬如‘uh’、‘yeah’或者‘uh-huh’。

[031]对Switchboard数据的检查揭示，大量的被替换项和修复/重复项二元组在少于两个单词时(即“as to，you know，when to”)是不同的，而且差别少于两个POS标签的二元组的数量更大。这些也是某些二元组具有不同长度的情形。这些研究结果为这里描述的实施例的特性空间提供了基础。

[032]采用C&J的工作来作为基本***时，要定义原始拷贝来生成任何潜在的被替换项和修复项二元组的候选二元组。增强算法被用来探测单词是否被剪辑。在传统算法中总共使用了18个变量。但是，这里描述的实施例的特性也适用于其他学习算法，譬如条件极大熵建模和贝叶斯分类器。

[033]直观地看，该增强算法根据对一组训练数据的分类结果来迭代组合一组简单的学习器。该训练数据在每次迭代后改变比例，从而使得前面的分类器处理得不好的部分数据得到较高的加权。学习器的加权因子也作相应调整。

[034]为了确切无疑地鉴别性能中的分布因子，C&J所报告的增强算法在实施例中是作为基本***实现的。所取的每个单词都由如下的随机变量有限元组来表征：

(Y，X₁，...，X_m)

[035]Y是被调节变量，它的范围是{-1，+1}，Y＝+1表示该单词被剪辑。X₁，...，X_m是调节变量，每个变量X_j的范围在有限集合χ_j上。该分类器的目标是由给定的X₁，...，X_m的值来预测Y的值。

[036]增强分类器是用来定义预测变量Z的n个特性的线性组合。

Z = Σ_{i = 1}^{n} α_{i} F_{i} - - - (1)

其中α_i是为特性φ_i估计的权重。φ_i是一组变量-数值二元组，每个F_i的形式是

F_{i} = \underset{< X_{j}, x_{j} > &Element; φ_{i}}{Π} (X_{j} = x_{j}) - - - (2)

各个X是调节变量，而各个x是数值。

[037]乘积F_i中的每个分量被定义为

[038]换句话说，如果而且仅仅如果当前位置的所有变量-数值二元组都属于φ_i，F_i就是1。

[039]该分类器所作的预测是sign(Z)＝Z/|Z|。所以，一个实施例通过调整特性加权向量

\overset{&RightArrow;}{α} = (α_{1}, . . ., α_{n})

来使期望的分类错误率E[sign(Z)≠Y]达到最小。这个函数很难最小化，所以，实施例的增强分类器使期望的增强损失

极小化，其中是经验训练语料库分布的期望值。在实现方案中，每个学习器只包含一个变量。这些特性权重被迭代调整，每次迭代调整一个权重。对特性权重的调整降低了该训练语料库的增强损失。实验表明，在1500次迭代后得到，其中包含大约1350个非零特性权重。

[040]图3是一幅流程图300，它表示如何为不流利性鉴别器生成模型。在图3中，一组训练数据302的特征经过分析并被用来构成特性集314。在增强算法中，这个特性集和不流利性鉴别器一道使用，该算法包括不流利性鉴别步骤316、与训练数据的比较步骤318、特性权重调节步骤320以及训练数据调节步骤308。最后，生成包含最优加权特性集的模型116。

[041]训练数据302经过分析后就得到语言修复分布304，譬如图4A、4B和4C所示的分布。从语言修复分布分析中获得的直觉加上其他考虑就能够选择一组调节变量310。下面结合图5进一步说明一组调节变量。

[042]训练数据302也被输入到原始拷贝鉴别器306，下面对此会做更详细的说明。调节变量310和原始拷贝鉴别器306的输出被用来生成构造特性集314的特性312。

[043]从每个特性对不流利性鉴别这一任务的相对重要性未知的意义上讲，特性集314不是最优的。该特性集的优化，或者说特性权重的计算，是通过上述增强算法来实现的。简单地讲，该候选特性集与不流利性鉴别器一道使用来获得训练数据集中的被剪辑单词。由于训练集包含剪辑标签注释，所以能够采用特性集314来测量(步骤318)不流利性鉴别的性能。然后，调节特性权重(步骤320)以图改进不流利性鉴别性能。此外，该训练数据也被调节得能使该数据中导致最差性能的数据部分被最频繁地加以重复。这样可以得到更好的训练结果。该迭代增强算法的最终结果就是包含加权特性集116的模型。

[044]在C&J中，鉴别被剪辑区域被认为是分类问题，其中每个单词被归类为被剪辑或正常。这种方法首先获得原始拷贝。然后，为该增强算法提取多个变量。详细地讲，总共18个不同的调节变量被用来预测当前单词是被剪辑单词还是非编辑的单词。图5中所示的前18个变量(X₁-X₁₈)就对应于Charniak和Johnson使用的、当前单词位置的18个不同尺度/因子。这18个变量中，有6个(即N_m、N_n、N_i、N_l、N_r和T_f)取决于原始拷贝的鉴别。

[045]为方便起见，这里重复原始拷贝的传统定义。一串带有标签的单词的原始拷贝具有₁βλ₂的形式，其中：

1、₁(源)和₂(拷贝)都以非标点开始，

2、₁和₂的非标点POS标签的字符串完全相同，

3、β(自由结尾)包括零个或多个自由结尾单词序列(见下文)，其后有非强制性的标点，

4、λ(停顿)包括停顿字符串序列(见下文)，其后有非强制性的标点。

[046]这组自由结尾单词包括所有不完整单词以及一小组连接词、副词和其他杂项。这组停顿字符串包括一小组诸如uh、you know、Iguess、Imean等的表达方式。

[047]原始拷贝的定义已被修改，因为所有剪辑中的至少94％既有被替换项，也有修复项，而C&J中定义的原始拷贝只覆盖这些情况的77.66％。

[048]两种方法被用来修改原始拷贝的定义。第一种方法是采用递阶POS标签集：所有Switchboard POS标签被进一步归类为4个主目录：N(与名词相关)、V(与动词相关)、Adj(名词修饰语)、Adv(动词修饰语)。实施例不需要两个POS标签序列严格匹配，而是在两个序列的相应主目录匹配时将它们当作原始拷贝。这种修正将原始拷贝的覆盖率(在该原始拷贝定义中获得的被剪辑区域中的单词的百分比)从77.66％增加到79.68％。

[049]第二种方法是允许两个POS序列中有一个失配。这单个失配可以是增加、删除或替换。这样就将覆盖率从77.66％增加到85.45％。随后，对该原始拷贝定义的组合修改则显著地使覆盖率达到更高的87.70％。原始拷贝定义的额外放宽导致过多的候选单词和开发集的更差性能。

[050]实施例包括新的调节变量：一个是当前单词和它右方具有相同拼写形式的单词(如果该重复单词存在的话)之间的最短距离(单词数目)；另一个是被认为在当前单词周围的单词数。根据分布分析，POS标签(T_-5，...，T₅)和单词(W_-5，...，W₅)的窗口尺寸增加到±5，不完全单词(P_-3，...，P₃)增加到±3，这扩展了T_i和P_j。

[051]图5列出各种调节变量的标号、名称和说明。在图5中，X₁-X₁₈是Charniak和Johnson使用的调节变量。新变量X₁₉-X₃₈被用来生成为不流利性鉴别获得改进模型的特性集。

[052]此外，实施例使用上下文关系模式来提高这些特性中的变量的独立性。这些模式已经从开发和训练数据中提取出来以便处理某些与顺序有关的错误，譬如

ENE→EEE，

它表示，如果一个单词的两侧都被归类为“EDITED”(被剪辑)，那么该单词也应当被归类为“EDITED”。

[053]曾经做了若干实验来测试这里所描述的特性空间探测的有效性。由于没有C&J的原始代码，所以第一个实验是为了复制他们的基本***的结果。采用了和C&J相同的、来自Switchboard语料库的训练数据。该训练子集包括Switchboard语料库的第2和第3部分的所有文件。第4部分被分为大小大致相等的3个子集。这3个子集中的第一个，即文件sw4004.mrg到sw4153.mrg是测试语料库。文件sw4519.mrg到sw4936.mrg是开发语料库。其余文件被保留做其他用途。当训练和测试数据都包含标点时，该重建基本***的准确性、查全率(recall)和F评分分别为94.73％、68.71％和79.65％。这些结果可以与C&J的结果(即95.2％、67.8％和79.2％)相媲美。

[054]在随后的实验中，加入了表1和表2所示的额外特性。第一次增加包括到相同单词的最短距离和窗口尺寸增加。这使F评分比基本***改进了2.27％。第二次增加是在获得原始拷贝时引入POS结构体系。这也比基本***绝对改进了3％，比扩展特性集模型改进了1.19％。采用单词、POS标签和POS结构标签的不严格匹配产生了额外的改进，与该重建基本***相比，它导致总体8.95％的绝对改进，或者在F评分中导致43.98％的相对出错率下降。

[055]在与Johnson和Charniak的、训练和测试数据中均不使用标点的最新结果比较时，获得了相同的改进结果趋势。最好的结果是4.15％的绝对改进或者F评分中20.44％的相对出错率下降。作为健全测试，将训练数据作为欺骗实验来评价时，发现与测试数据结果一致。

表1.不同特性空间结果汇总

方法代码	按照包含标点的训练数据所得的结果			按照测试数据所得的结果
				按照测试数据所得的结果						两者都包含标点			两者都不含标点
				准确性	查全率	F评分	准确性	查全率	F评分	两者都包含标点			两者都不含标点			准确性	查全率	F评分
	CJ’01			准确性	查全率	F评分	准确性	查全率	F评分		95.2	67.8	79.2			准确性	查全率	F评分
JC’04p	CJ’01										95.2	67.8	79.2			82.0	77.8	79.7
JC’04p	R CJ’01	94.9	71.9							81.81	94.73	68.71	79.65	91.46	64.42	82.0	77.8	79.7	75.59
+d	R CJ’01	94.9	71.9	94.56	78.37	85.71	94.47	72.31	81.92	81.81	94.73	68.71	79.65	91.46	64.42	91.79	68.13	78.21	75.59
+d	+d+h	94.23	81.32	94.56	78.37	85.71	94.47	72.31	81.92	87.30	94.58	74.12	83.11	91.56	71.33	91.79	68.13	78.21	80.19
+d+rh	+d+h	94.23	81.32	94.12	82.61	87.99	92.61	77.15	84.18	87.30	94.58	74.12	83.11	91.56	71.33	89.92	72.68	80.39	80.19
+d+rh	+d+rw	96.13	82.45	94.12	82.61	87.99	92.61	77.15	84.18	88.77	94.79	75.43	84.01	92.17	70.79	89.92	72.68	80.39	80.08
+d+rw+rh	+d+rw	96.13	82.45	94.42	84.67	89.28	94.57	77.93	85.45	88.77	94.79	75.43	84.01	92.17	70.79	92.61	73.46	81.93	80.08
+d+rw+rh	+d+rw+rt+wt	94.43	84.79	94.42	84.67	89.28	94.57	77.93	85.45	89.35	94.65	76.61	84.68	92.08	72.61	92.61	73.46	81.93	81.19
+d+rw+rh+wt	+d+rw+rt+wt	94.43	84.79	94.58	85.21	89.65	94.72	79.22	86.28	89.35	94.65	76.61	84.68	92.08	72.61	92.69	75.30	83.09	81.19
+d+rw+rh+wt	+d+rw+rh+wt+ps	93.69	88.62	94.58	85.21	89.65	94.72	79.22	86.28	91.08	93.81	83.94	88.60	89.70	78.71	92.69	75.30	83.09	83.85

表2.表1中所用的模型说明

方法代码	方法说明
方法代码	方法说明	J’01	Charniak和Johnson 2001
JC’04p	Johnson和Charniak 2004，语法解析器结果	J’01	Charniak和Johnson 2001
JC’04p	Johnson和Charniak 2004，语法解析器结果	R CJ’01	Charniak and Johnson 2001的复制结果
+d	距离+窗口尺寸	R CJ’01	Charniak and Johnson 2001的复制结果
+d	距离+窗口尺寸	+d+h	距离+窗口尺寸+原始拷贝中的POS结构
+d+rh	距离+窗口尺寸+原始拷贝中的不严格POS结构	+d+h	距离+窗口尺寸+原始拷贝中的POS结构
+d+rh	距离+窗口尺寸+原始拷贝中的不严格POS结构	+d+rw	距离+窗口尺寸+原始拷贝中的不严格单词
+d+rw+rh	距离+窗口尺寸+原始拷贝中的不严格单词和POS结构	+d+rw	距离+窗口尺寸+原始拷贝中的不严格单词
+d+rw+rh	距离+窗口尺寸+原始拷贝中的不严格单词和POS结构	+d+rw+rt+wt	距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS
+d+rw+rh+wt	距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS结构	+d+rw+rt+wt	距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS
+d+rw+rh+wt	距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS结构	+d+rw+rh+wt+ps	距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS结构+模式替换

[056]为了进行出错率分析，从至少有一处错误的测试语句中随机选择了总共1673个单词的100个句子。出错可以被划分为两个类型：遗漏(应当被剪辑)和假警报(应当视为正常)。在207个遗漏中，其中大约70％需要惯用语级别的分析或惯用语的声音提示。举例来说，一个遗漏是“because of the friends because of many other things”，如果能够可靠鉴别前置词惯用语的话，这是一个具有相当好的被鉴别机会的错误。另一个示例是“most of all my family”。由于它本身是合乎语法的，所以“most of”和“all my family”之间的某些作诗法信息也许会有助于鉴别。

[057]第二大类遗漏是某些短单词在该语料库中的标注不一致。举例来说，当“so”、“and”和“or”在句首出现时，它们有时被标注为被剪辑，有时只被标注为正常。最后一类遗漏大约为5.3％，它包括被替换项和修复项的距离常常大于10个单词的情况。

[058]在95个假警报中，归类错误假警报中的四分之三以上与某些语法结构有关。示例包括“the more...the more”和“I think I should...”这类情况。如果采用更巧妙的基于语法的特性，这些情况是可以解决的。

[059]除了被剪辑区域的分布分析外，也研究并测试了若干特性空间来显示它们的有效性。对训练和测试C&J中均包含标点的基本***，在F评分中获得了43.98％的相对出错率下降。在忽略训练和测试数据中的标点时，与所报告的最好结果相比，相同的方法产生了F评分中20.44％的相对出错率下降。同时包括递阶POS标签和新原始拷贝定义时，可以获得很大的额外改进，这两种方法的组合对包含标点的测试集已经达到几乎一半的改进，对不含标点的数据大约为60％的改进。

[060]进一步的研究包括采用其他特性(譬如韵律学)以及将被剪辑区域鉴别和语法分析加以综合。

[061]熟悉该技术的人员根据这里公布的实施例很容易理解，目前存在或以后要开发的、执行与这里所说明的实施例基本相同的功能或者获得基本相同结果的过程、机器、加工、装置、方法或步骤可以按照本发明加以利用。所以，所附的权利要求旨在将这些过程、机器、加工、装置、方法或步骤包括在它们的范围之内。

[062]对这里所描述的处理***和方法，已经结合目前被认为最实际和最可取的实施例进行了说明，应当理解，这些处理***和方法不限于前面所公布的实施例和变化形式，相反，它旨在覆盖被包括在下述权利要求范围内的不同修改和同等设计。

[063]这里所描述的处理***和方法的诸方面可以作为编程到多种电路的任何一种电路中的功能来实现，这些电路包括可编程逻辑器件(PLD)，譬如场可编程门阵列(FPGA)、可编程阵列逻辑(PAL)器件、电可编程逻辑和存储器设备及标准的基于基本单元的设备，还包括特定用途集成电路(ASIC)。实现这些处理***和方法的诸方面的某些其他可能性包括：带有存储器的微控制器(譬如电子可擦写可编程只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。另外，这些处理***和方法的诸方面可以采用微处理器来实施，这些微处理器带有基于软件的电路仿真技术、(顺序和组合)离散逻辑、用户设备、模糊(神经元)逻辑、量子设备以及上述任何类型设备的混合。当然，也能够以各种部件类型来提供下面的设备技术，譬如，金属氧化物半导体场效应三极管(MOSFET)技术(如互补金属氧化物半导体(CMOS))、双极性技术(如射极耦合逻辑(ECL)电路)、聚合物技术(如硅结合聚合物和金属结合聚合物金属结构)、混合模拟和数字技术等等。

[064]应当注意，这里公布的各种部件可以被描述或表达(或表示)成嵌入各种计算机可读媒体的数据和/或指令。可以实现这些数据和/或指令的计算机可读媒体包括(但不限于)各种形式的非易失性存储媒体(譬如光学的、磁性的或半导体存储媒体)以及可以通过无线、光学或有线信号介质或它们的任何组合来发送这些格式化数据和/或指令的载波。由载波发送这些数据和/或指令的示例包括(但不限于)借助一个或多个数据发送协议(譬如HTTP、FTP、SMTP等)通过因特网和/或其他计算机网络加以发送。在计算机***内部经由一个或多个计算机可读媒体接收后，上述部件的基于这些数据和/或指令的表达式可以由该计算机***内的处理实体(譬如一个或多个处理器)结合一个或多个其他计算机程序的执行来进行处理。

[065]除非本文特别明确要求，在整个说明书和权利要求书中，“包括”(comprise、comprising)等类似词语都按照它的内含意义来理解，并不具有“唯一”或“毫无遗漏”的含义；就是说，它的意义是“包括，但不限于”。使用单数或复数的单词也分别包括复数或单数。另外，单词“这里”(herein)、“下文”(hereunder)、“上述”(above)、“下面”(below)以及类似含义的词语是指整个这个申请而不是指这个申请的任何独特部分。词语“或者”(or)被用来针对两个以上细项的清单，这个单词包括对该单词的如下解释：该清单中的任何细项、该清单中的所有细项以及该清单中诸细项的任意组合。

[066]对这些处理***和方法的演示性实施例的上述说明并不是想要成为详尽的说明，也不是要将这些处理***和方法局限于所公布的准确形式。这些处理***和方法的特定实施例及示例在这里是为了演示目的而加以说明的，所以，熟悉相关技术的人员可以理解，在这些处理***和方法的范围内可以存在各种等效的修改形式。对这里提供的处理***和方法的解释能够被应用于其他处理***和方法，而不仅仅是被应用于上述***和方法。

[067]上述各种实施例的要素和作用可以被组合起来提供更多的实施例。借助上述详细说明，可以对这些处理***和方法作出这些或其他改变。

[068]这份说明书中提到的每个出版物、专利和/或专利申请都同等地被整体参考编入，就像表明每个独立出版物、专利和/或专利申请要被专门地、独立地参考编入一样。

[069]总之，在下述权利要求中，所采用的条款不应当被解释为将这些处理***和方法局限于该说明书和权利要求书中所公布的特定实施例，而应当解释为包括按照该权利要求书运行的所有处理***。相应地，这些处理***和方法不受本说明书限制，但是，这些处理***和方法的范围完全由该权利要求书来确定。

[070]既然这些处理***和方法的一些方面在下面以权利要求的形式提出，所以本发明人期待这些处理***和方法的各个方面都以任意数量的权利要求的形式提出。举例来说，既然这些处理***和方法中只有一个方面被书面陈述为以机器可读媒体方式实施，那么其他方面也可能类似地以机器可读媒体形式实施。所以，本发明人保留在提出该申请后添加附加权利要求的权利，以便为这些处理***和方法的其他方面继续寻求这种附加的权利要求。

Claims

1、一种处理口语的方法，包括：

将多个口语单词转变为文本单词序列；

用词类(POS)标签来标记该文本单词序列中的单词；

用不流利性鉴别器来标记该文本单词序列中的被剪辑单词，该鉴别器利用采用技术生成的特性集运行，这些技术包括：

仅仅使这些标签的多层结构中的最高层POS标签得到匹配；以及

借助POS标签和被剪辑单词标签信息将该文本单词序列解析为机器指令。

2、权利要求1中的方法，其中这些标签的多层结构中的最高层POS标签包括对应于“与名词相关”、“与动词相关”、“名词修饰语”和“动词修饰语”这些类别的标签。

3、权利要求1中的方法，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括允许原始拷贝的POS标签序列中有单个失配。

4、权利要求1中的方法，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括引入到下一个相同拼写的单词的距离作为调节变量。

5、权利要求4中的方法，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少5个位置的单词窗口尺寸。

6、权利要求5中的方法，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少5个位置的POS标签窗口尺寸。

7、权利要求6中的方法，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少3个位置的不完全单词窗口尺寸。

8、权利要求1中的方法，它还包括在解析该文本单词序列之前删除被剪辑单词标签信息中与顺序相关的错误。

9、一种处理口语的***，包括：

用于将多个口语单词转变为文本单词序列的语言识别单元；

用于将文本单词序列中的单词贴上词类(POS)标签的词类标志器；

用于标记该文本单词序列中的被剪辑单词的不流利性鉴别器；其中，该不流利性鉴别器利用借助技术生成的特性集运行，这些技术包括：

用于借助POS标签和被剪辑单词标签信息来将该文本单词序列解析为机器指令的语法解析器。

10、权利要求9中的***，其中这些标签的多层结构中的最高层POS标签包括对应于“与名词相关”、“与动词相关”、“名词修饰语”和“动词修饰语”这些类别的标签。

11、权利要求9中的***，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括允许原始拷贝的POS标签序列中有单个失配。

12、权利要求9中的***，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括引入到下一个相同拼写的单词的距离作为调节变量。

13、权利要求12中的***，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少5个位置的单词窗口尺寸。

14、权利要求13中的***，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少5个位置的POS标签窗口尺寸。

15、权利要求14中的***，其中该不流利性鉴别器利用借助技术生成的特性集运行，该技术还包括采用增加或减少3个位置的不完全单词窗口尺寸。

16、一种用于生成不流利性鉴别器模型的方法，包括：

分析被转录语言中的语言修复分布；

选择与该语言修复分布相应的调节变量；

采用原始拷贝鉴别器和这些调节变量来生成特性集；而且

根据按照训练数据运行的迭代算法来给特性集加权。

17、权利要求16中的方法，其中所选的调节变量包括代表到下一个相同拼写的单词的距离的变量。

18、权利要求16中的方法，其中该原始拷贝鉴别器仅仅匹配这些标签的多层结构中的最高层POS标签。

19、权利要求16中的方法，其中该原始拷贝鉴别器允许原始拷贝的POS标签序列中有单个失配。