CN1945563A - 不流利语句的自然语言处理 - Google Patents

不流利语句的自然语言处理 Download PDF

Info

Publication number
CN1945563A
CN1945563A CNA2006101421056A CN200610142105A CN1945563A CN 1945563 A CN1945563 A CN 1945563A CN A2006101421056 A CNA2006101421056 A CN A2006101421056A CN 200610142105 A CN200610142105 A CN 200610142105A CN 1945563 A CN1945563 A CN 1945563A
Authority
CN
China
Prior art keywords
technology
word
discr
label
fluency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101421056A
Other languages
English (en)
Other versions
CN1945563B (zh
Inventor
翁富良
张奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN1945563A publication Critical patent/CN1945563A/zh
Application granted granted Critical
Publication of CN1945563B publication Critical patent/CN1945563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

包括新处理方法的先进模型被用来作为有效的不流利性鉴别器的部件。该不流利性鉴别器标记被转录语言中的被剪辑单词。语言识别单元和词类标志器、不流利性鉴别器以及语法解析器组合形成能够帮助机器正确解释口语的自然语言***。

Description

不流利语句的自然语言处理
技术领域
[01]一般而言,本发明涉及自然语言处理。特别是,它涉及处理不流利语句。
背景技术
[02]自然语言处理是让计算机按照人的方式解释指令或信息的科学。现在将设定烤箱温度的任务视为一个示例。实际上,任何人都能够理解口语指令“set the oven to three hundred and fifty degrees(将烤箱定为350度)”。而且人们也完全理解某些变化形式,譬如“set the umm burner,I mean oven,to three hundred and fifty degrees(将炉子,噢,我是指烤箱,定为350度)”或者,“set the oven to,you know,like three hundred andfifty degrees(将烤箱定位,你知道,大概350度)”。
[03]但是,即使能够以极高的准确性将说话声音转变为文本单词,控制烤箱的计算机也很难知道口语指令中哪些部分需要忽略。究竟计算机应当如何解释“umm burner,I mean oven”?一个人说“you know,like”究竟是指什么?
[04]自然语言的填充式停顿(“umm”)、***表达方式(“you know”)、不正确语法和语言修复(“burner,I mean oven”)对计算机试图发现人的口语含义是块绊脚石。自然语言处理的研究人员已经采取的研究方法是:计算机处理这些绊脚石的最简单的办法是将它们删除。如果计算机被训练得能够忽略上述被转录语言中的“umm burner,I mean”或“you know,like”,剩下的单词就很容易由传统文本解析器加以解释。
[05]已经投入了很大的力量来开发某种自动***,该***能够鉴别口头语句中那些计算机为了某种目的最好予以忽略或者为了其他目的而要加以使用的组成部分。更具体地讲,已经开发出了鉴别被转录语言中的所谓被剪辑单词的***,这些单词就是计算机不必费心去理解的单词。
[06]Charniak和Johnson[Eugene Charniak,and Mark Johnson,“EditDetection and Parsing for Transcribed Speech(被转录语言的剪辑探测和语法分析)”,Proceedings of the 2nd Meeting of the North AmericanChapter of the Association for Computational Linguistics,pp 118-126,(2001)(本文特此参考编入,下文记为“C&J”)]提出了一个简单的分析被转录语言的体系结构,其中被剪辑单词探测器首先从语句串中删除这些单词,然后,根据被转录语言加以训练的标准统计解析器分析剩下的单词。
[07]为了评估自然语言处理的不同方法和***的性能,许多研究人员(包括Charniak和Johnson)采用语言数据财团(Linguistic DataConsortium)提供的Switchboard语料库(Switchboard corpus)。Switchboard语料库是已经由人工注解员标注的一组大量的转录电话谈话。自然语言处理***的性能可以通过将它生成的结果和人工记录的结果加以比较来加以评价。
[08]自然语言处理***性能的改进部分地取决于设计更好的不流利性鉴别器,剪辑单词探测器就是它的一个最好示例。不流利性鉴别器采用模型来运行,该模型可以包括一组统计加权的特性集,这些特性的作用就像帮助发现不流利性(譬如被剪辑单词)的线索。
[09]生成更好模型和特性集的技术领域是一个成熟的创新领域。该领域中的进展来自研究人员对语言学、统计学和其他学科之间的计算机算法的深刻理解,以及对它们的那些看起来违反直觉的领悟加以综合的能力。
附图说明
[010]图1示意性地表示自然语言处理***;
[011]图2示意性地表示图1***所用的自然语言处理的方法;
[012]图3是表示如何生成不流利性鉴别器的模型的流程图;
[013]图4A、4B和4C分别表示测试语料库中被替换项(reparanda)、修复项和停顿项的长度分布。
[014]图5列出各种调节变量的标号、名称和说明。
具体实施方式
[015]图1示意性地表示自然语言处理***100。该***解释口语单词输入(譬如语句片断102),并输出计算机可以识别的代码(譬如机器指令104)。该整体***可以让人采用正常人的语言直接对计算机讲话。
[016]***100的主要部件是语言识别单元110、词类标志器112、不流利性鉴别器114和语法解析器118。不流利性鉴别器采用模型116运行。
[017]语言识别单元110将人的讲话声音转录为文本数据。然后这个文本被送到词类标志器112,它将每个文本单词贴上词类(POS)标签,譬如“名词”、“动词”等等。以POS标签注释的文本被输入到不流利性鉴别器114。不流利性鉴别器和它的模型116决定:为了获得改进的计算机分析性能,哪些单词应当从该文本中予以剪辑和忽略。最后,语法解析器118将剪辑后的文本转变为机器指令,即计算机命令。
[018]自然语言处理***100和它的各个部件就代表综合装置。下面的说明主要集中讨论不流利性鉴别器114和它的相关模型116,不过该实施例并不受如此限制。事实上,不流利性鉴别器的性能可以取决于它的模型如何生成。
[019]图2示意性地表示图1的***100中所用的自然语言处理方法200。在图2中,框202代表口语单词发音“I think,you know,I want to.”这些发音会立即被人识别,而且很可能被有把握地简单解释为“I wantto.”。换句话说,对“I think,you know,I want to.”的反应就是干脆忽略“I think,you know,”,只是对“I want to.”作出反应。图2所示的方法(以及图1所示的***)被设计得能够过滤掉被剪辑单词(譬如“Ithink,you know,”)来作为改进机器解释口语准确性的方法。
[020]口语单词发音202被输入语言识别单元110。语言识别单元110将单词发音转变为文本,譬如文本单词序列204,这里不加引号(包含I think,you know,I want to的引号)是为了强调这些单词现在代表文本数据。然后,文本单词被送到词类(POS)标志器112。POS标志器的输出是一系列单词-POS标签二元组,譬如框206中的形式。在框206中,单词‘I’和标志‘prp’配对,单词‘think’和‘vbp’配对,等等。
[021]然后,单词-POS标签二元组序列由不流利性鉴别器114加以处理。不流利性鉴别器确定哪些单词应当被剪辑,即在后续处理中被忽略。框208中的单词-POS标签-剪辑标签三元组表示,诸如‘I’、‘think’、‘you’和‘know’都是被剪辑单词,而‘I’、‘want’和‘to’是正常单词。当语句‘I think,you know,I want to’被送到语法解析器118时,被剪辑单词就被忽略。语法解析器118根据“只有正常单词携带信息”的假设运行。最后,语法解析器118将正常单词转变为指令。作为一个示例,语法解析器118可以将正常单词转变为机器可读指令。在框210中,机器指令用‘execute>>I WANT TO’表示。
[022]在图1和图2中,框116是不流利性鉴别器114所采用的模型。该模型代表该不流利性鉴别器用来发现被剪辑单词的线索和策略。实施例的一个方面就在于生成模型的详细方式。对模型设计的理解取决于对口语特点以及对其他话题之间的统计算法的透彻理解。
[023]修复、犹豫和重新开始是口语中常有的事,理解口语需要鉴别这些不流利现象的准确方法。正确地处理语言修复这一任务提出了对口语对话***的挑战。
[024]在实施例中,处理语言修复是从分析目标语料库中被剪辑区域的分布和它们的成分开始的。在该训练数据中,提供了几个特性空间来覆盖这些不流利区域。此外,在实验中也探测了词类体系结构的新特性空间,并扩展了候选库。与C&L中报告的、在Switchboard语料库的训练和测试数据中都包含标点的结果相比,该实施例显著地改进了F评分,而且,与它们最近的、在Switchboard语料库的训练和测试数据中都忽略标点的结果相比,F评分中的出错率也显著下降。
[025]根据常规的定义,语言修复被划分为3部分:被替换项,是被修复的部分;停顿项,是空白部分或填充符;修复/重复项,是替换或重复被替换项的部分。这个定义能够用如下的说话方式作为示例来说明:
Figure A20061014210500081
[026]在Switchboard语料库中分析语言修复时要注意,Switchboard拥有超过100万个单词,包括陌生人之间关于指定话题的转录电话会话。它全是经过分析的、由其他人分类的不流利说话方式。其他研究人员已经报告了停顿的详细分布,包括感叹词和***语。但是,大多数不流利性涉及所有这三个部分(被替换项、停顿项和修复/重复项)。研究结果表明,在构造用于鉴别被剪辑区域的模式时,所有这三个部分的分布都是必须的。
[027]对被替换项和修复类型而言,分布的计算可以包含标点和不包含标点。为了与C&J报告的、鉴别被剪辑区域时包含标点的基本***(baseline system)加以比较,分布的计算要包含标点。根据定义,停顿类型不包含标点。
[028]图4A、4B和4C表示测试语料库中被替换项、修复项和停顿项的长度分布。Switchboard数据的训练部分中包含和不包含标点的被替换项长度分布402由图4A给出。长度低于7个单词的被替换项占训练数据中那些被剪辑区域的95.98%。在删除标点后,长度低于6个单词的被替换项达到96%。所以只考虑6个以下单词长度的被替换项的模式具有良好的覆盖范围。
[029]Switchboard的训练部分中的修复/重复部分的长度分布404如图4B所示。在该训练数据中,长度低于7个单词的修复/重复项占这种情况的98.86%。如果采用7作为构造修复/重复模式的阈限,会得到极好的覆盖范围。
[030]Switchboard语料库的训练部分中的停顿项的长度分布406如图4C所示。可以看出,绝大多数的长度都是1;这些是最常用的单词,譬如‘uh’、‘yeah’或者‘uh-huh’。
[031]对Switchboard数据的检查揭示,大量的被替换项和修复/重复项二元组在少于两个单词时(即“as to,you know,when to”)是不同的,而且差别少于两个POS标签的二元组的数量更大。这些也是某些二元组具有不同长度的情形。这些研究结果为这里描述的实施例的特性空间提供了基础。
[032]采用C&J的工作来作为基本***时,要定义原始拷贝来生成任何潜在的被替换项和修复项二元组的候选二元组。增强算法被用来探测单词是否被剪辑。在传统算法中总共使用了18个变量。但是,这里描述的实施例的特性也适用于其他学习算法,譬如条件极大熵建模和贝叶斯分类器。
[033]直观地看,该增强算法根据对一组训练数据的分类结果来迭代组合一组简单的学习器。该训练数据在每次迭代后改变比例,从而使得前面的分类器处理得不好的部分数据得到较高的加权。学习器的加权因子也作相应调整。
[034]为了确切无疑地鉴别性能中的分布因子,C&J所报告的增强算法在实施例中是作为基本***实现的。所取的每个单词都由如下的随机变量有限元组来表征:
                      (Y,X1,...,Xm)
[035]Y是被调节变量,它的范围是{-1,+1},Y=+1表示该单词被剪辑。X1,...,Xm是调节变量,每个变量Xj的范围在有限集合χj上。该分类器的目标是由给定的X1,...,Xm的值来预测Y的值。
[036]增强分类器是用来定义预测变量Z的n个特性的线性组合。
Z = Σ i = 1 n α i F i - - - ( 1 )
其中αi是为特性φi估计的权重。φi是一组变量-数值二元组,每个Fi的形式是
F i = &Pi; < X j , x j > &Element; &phi; i ( X j = x j ) - - - ( 2 )
各个X是调节变量,而各个x是数值。
[037]乘积Fi中的每个分量被定义为
[038]换句话说,如果而且仅仅如果当前位置的所有变量-数值二元组都属于φi,Fi就是1。
[039]该分类器所作的预测是sign(Z)=Z/|Z|。所以,一个实施例通过调整特性加权向量 &alpha; &RightArrow; = ( &alpha; 1 , . . . , &alpha; n ) 来使期望的分类错误率E[sign(Z)≠Y]达到最小。这个函数很难最小化,所以,实施例的增强分类器使期望的增强损失
Figure A20061014210500105
极小化,其中 是经验训练语料库分布的期望值。在实现方案中,每个学习器只包含一个变量。这些特性权重被迭代调整,每次迭代调整一个权重。对特性权重的调整降低了该训练语料库的增强损失。实验表明,在1500次迭代后得到 ,其中包含大约1350个非零特性权重。
[040]图3是一幅流程图300,它表示如何为不流利性鉴别器生成模型。在图3中,一组训练数据302的特征经过分析并被用来构成特性集314。在增强算法中,这个特性集和不流利性鉴别器一道使用,该算法包括不流利性鉴别步骤316、与训练数据的比较步骤318、特性权重调节步骤320以及训练数据调节步骤308。最后,生成包含最优加权特性集的模型116。
[041]训练数据302经过分析后就得到语言修复分布304,譬如图4A、4B和4C所示的分布。从语言修复分布分析中获得的直觉加上其他考虑就能够选择一组调节变量310。下面结合图5进一步说明一组调节变量。
[042]训练数据302也被输入到原始拷贝鉴别器306,下面对此会做更详细的说明。调节变量310和原始拷贝鉴别器306的输出被用来生成构造特性集314的特性312。
[043]从每个特性对不流利性鉴别这一任务的相对重要性未知的意义上讲,特性集314不是最优的。该特性集的优化,或者说特性权重的计算,是通过上述增强算法来实现的。简单地讲,该候选特性集与不流利性鉴别器一道使用来获得训练数据集中的被剪辑单词。由于训练集包含剪辑标签注释,所以能够采用特性集314来测量(步骤318)不流利性鉴别的性能。然后,调节特性权重(步骤320)以图改进不流利性鉴别性能。此外,该训练数据也被调节得能使该数据中导致最差性能的数据部分被最频繁地加以重复。这样可以得到更好的训练结果。该迭代增强算法的最终结果就是包含加权特性集116的模型。
[044]在C&J中,鉴别被剪辑区域被认为是分类问题,其中每个单词被归类为被剪辑或正常。这种方法首先获得原始拷贝。然后,为该增强算法提取多个变量。详细地讲,总共18个不同的调节变量被用来预测当前单词是被剪辑单词还是非编辑的单词。图5中所示的前18个变量(X1-X18)就对应于Charniak和Johnson使用的、当前单词位置的18个不同尺度/因子。这18个变量中,有6个(即Nm、Nn、Ni、Nl、Nr和Tf)取决于原始拷贝的鉴别。
[045]为方便起见,这里重复原始拷贝的传统定义。一串带有标签的单词的原始拷贝具有1βλ2的形式,其中:
1、1(源)和2(拷贝)都以非标点开始,
2、1和2的非标点POS标签的字符串完全相同,
3、β(自由结尾)包括零个或多个自由结尾单词序列(见下文),其后有非强制性的标点,
4、λ(停顿)包括停顿字符串序列(见下文),其后有非强制性的标点。
[046]这组自由结尾单词包括所有不完整单词以及一小组连接词、副词和其他杂项。这组停顿字符串包括一小组诸如uh、you know、Iguess、Imean等的表达方式。
[047]原始拷贝的定义已被修改,因为所有剪辑中的至少94%既有被替换项,也有修复项,而C&J中定义的原始拷贝只覆盖这些情况的77.66%。
[048]两种方法被用来修改原始拷贝的定义。第一种方法是采用递阶POS标签集:所有Switchboard POS标签被进一步归类为4个主目录:N(与名词相关)、V(与动词相关)、Adj(名词修饰语)、Adv(动词修饰语)。实施例不需要两个POS标签序列严格匹配,而是在两个序列的相应主目录匹配时将它们当作原始拷贝。这种修正将原始拷贝的覆盖率(在该原始拷贝定义中获得的被剪辑区域中的单词的百分比)从77.66%增加到79.68%。
[049]第二种方法是允许两个POS序列中有一个失配。这单个失配可以是增加、删除或替换。这样就将覆盖率从77.66%增加到85.45%。随后,对该原始拷贝定义的组合修改则显著地使覆盖率达到更高的87.70%。原始拷贝定义的额外放宽导致过多的候选单词和开发集的更差性能。
[050]实施例包括新的调节变量:一个是当前单词和它右方具有相同拼写形式的单词(如果该重复单词存在的话)之间的最短距离(单词数目);另一个是被认为在当前单词周围的单词数。根据分布分析,POS标签(T-5,...,T5)和单词(W-5,...,W5)的窗口尺寸增加到±5,不完全单词(P-3,...,P3)增加到±3,这扩展了Ti和Pj
[051]图5列出各种调节变量的标号、名称和说明。在图5中,X1-X18是Charniak和Johnson使用的调节变量。新变量X19-X38被用来生成为不流利性鉴别获得改进模型的特性集。
[052]此外,实施例使用上下文关系模式来提高这些特性中的变量的独立性。这些模式已经从开发和训练数据中提取出来以便处理某些与顺序有关的错误,譬如
                    ENE→EEE,
它表示,如果一个单词的两侧都被归类为“EDITED”(被剪辑),那么该单词也应当被归类为“EDITED”。
[053]曾经做了若干实验来测试这里所描述的特性空间探测的有效性。由于没有C&J的原始代码,所以第一个实验是为了复制他们的基本***的结果。采用了和C&J相同的、来自Switchboard语料库的训练数据。该训练子集包括Switchboard语料库的第2和第3部分的所有文件。第4部分被分为大小大致相等的3个子集。这3个子集中的第一个,即文件sw4004.mrg到sw4153.mrg是测试语料库。文件sw4519.mrg到sw4936.mrg是开发语料库。其余文件被保留做其他用途。当训练和测试数据都包含标点时,该重建基本***的准确性、查全率(recall)和F评分分别为94.73%、68.71%和79.65%。这些结果可以与C&J的结果(即95.2%、67.8%和79.2%)相媲美。
[054]在随后的实验中,加入了表1和表2所示的额外特性。第一次增加包括到相同单词的最短距离和窗口尺寸增加。这使F评分比基本***改进了2.27%。第二次增加是在获得原始拷贝时引入POS结构体系。这也比基本***绝对改进了3%,比扩展特性集模型改进了1.19%。采用单词、POS标签和POS结构标签的不严格匹配产生了额外的改进,与该重建基本***相比,它导致总体8.95%的绝对改进,或者在F评分中导致43.98%的相对出错率下降。
[055]在与Johnson和Charniak的、训练和测试数据中均不使用标点的最新结果比较时,获得了相同的改进结果趋势。最好的结果是4.15%的绝对改进或者F评分中20.44%的相对出错率下降。作为健全测试,将训练数据作为欺骗实验来评价时,发现与测试数据结果一致。
                                         表1.不同特性空间结果汇总
  方法代码         按照包含标点的训练数据所得的结果                        按照测试数据所得的结果
           两者都包含标点           两者都不含标点
  准确性   查全率   F评分   准确性   查全率   F评分   准确性   查全率   F评分
  CJ’01   95.2   67.8   79.2
  JC’04p   82.0   77.8   79.7
  R CJ’01   94.9   71.9   81.81   94.73   68.71   79.65   91.46   64.42   75.59
  +d   94.56   78.37   85.71   94.47   72.31   81.92   91.79   68.13   78.21
  +d+h   94.23   81.32   87.30   94.58   74.12   83.11   91.56   71.33   80.19
  +d+rh   94.12   82.61   87.99   92.61   77.15   84.18   89.92   72.68   80.39
  +d+rw   96.13   82.45   88.77   94.79   75.43   84.01   92.17   70.79   80.08
  +d+rw+rh   94.42   84.67   89.28   94.57   77.93   85.45   92.61   73.46   81.93
  +d+rw+rt+wt   94.43   84.79   89.35   94.65   76.61   84.68   92.08   72.61   81.19
  +d+rw+rh+wt   94.58   85.21   89.65   94.72   79.22   86.28   92.69   75.30   83.09
  +d+rw+rh+wt+ps   93.69   88.62   91.08   93.81   83.94   88.60   89.70   78.71   83.85
                   表2.表1中所用的模型说明
  方法代码  方法说明
  J’01  Charniak和Johnson 2001
  JC’04p  Johnson和Charniak 2004,语法解析器结果
  R CJ’01  Charniak and Johnson 2001的复制结果
  +d  距离+窗口尺寸
  +d+h  距离+窗口尺寸+原始拷贝中的POS结构
  +d+rh  距离+窗口尺寸+原始拷贝中的不严格POS结构
  +d+rw  距离+窗口尺寸+原始拷贝中的不严格单词
  +d+rw+rh  距离+窗口尺寸+原始拷贝中的不严格单词和POS结构
  +d+rw+rt+wt  距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS
  +d+rw+rh+wt  距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS结构
  +d+rw+rh+wt+ps  距离+窗口尺寸+单词和标签二元组+原始拷贝中的不严格单词和POS结构+模式替换
[056]为了进行出错率分析,从至少有一处错误的测试语句中随机选择了总共1673个单词的100个句子。出错可以被划分为两个类型:遗漏(应当被剪辑)和假警报(应当视为正常)。在207个遗漏中,其中大约70%需要惯用语级别的分析或惯用语的声音提示。举例来说,一个遗漏是“because of the friends because of many other things”,如果能够可靠鉴别前置词惯用语的话,这是一个具有相当好的被鉴别机会的错误。另一个示例是“most of all my family”。由于它本身是合乎语法的,所以“most of”和“all my family”之间的某些作诗法信息也许会有助于鉴别。
[057]第二大类遗漏是某些短单词在该语料库中的标注不一致。举例来说,当“so”、“and”和“or”在句首出现时,它们有时被标注为被剪辑,有时只被标注为正常。最后一类遗漏大约为5.3%,它包括被替换项和修复项的距离常常大于10个单词的情况。
[058]在95个假警报中,归类错误假警报中的四分之三以上与某些语法结构有关。示例包括“the more...the more”和“I think I should...”这类情况。如果采用更巧妙的基于语法的特性,这些情况是可以解决的。
[059]除了被剪辑区域的分布分析外,也研究并测试了若干特性空间来显示它们的有效性。对训练和测试C&J中均包含标点的基本***,在F评分中获得了43.98%的相对出错率下降。在忽略训练和测试数据中的标点时,与所报告的最好结果相比,相同的方法产生了F评分中20.44%的相对出错率下降。同时包括递阶POS标签和新原始拷贝定义时,可以获得很大的额外改进,这两种方法的组合对包含标点的测试集已经达到几乎一半的改进,对不含标点的数据大约为60%的改进。
[060]进一步的研究包括采用其他特性(譬如韵律学)以及将被剪辑区域鉴别和语法分析加以综合。
[061]熟悉该技术的人员根据这里公布的实施例很容易理解,目前存在或以后要开发的、执行与这里所说明的实施例基本相同的功能或者获得基本相同结果的过程、机器、加工、装置、方法或步骤可以按照本发明加以利用。所以,所附的权利要求旨在将这些过程、机器、加工、装置、方法或步骤包括在它们的范围之内。
[062]对这里所描述的处理***和方法,已经结合目前被认为最实际和最可取的实施例进行了说明,应当理解,这些处理***和方法不限于前面所公布的实施例和变化形式,相反,它旨在覆盖被包括在下述权利要求范围内的不同修改和同等设计。
[063]这里所描述的处理***和方法的诸方面可以作为编程到多种电路的任何一种电路中的功能来实现,这些电路包括可编程逻辑器件(PLD),譬如场可编程门阵列(FPGA)、可编程阵列逻辑(PAL)器件、电可编程逻辑和存储器设备及标准的基于基本单元的设备,还包括特定用途集成电路(ASIC)。实现这些处理***和方法的诸方面的某些其他可能性包括:带有存储器的微控制器(譬如电子可擦写可编程只读存储器(EEPROM))、嵌入式微处理器、固件、软件等。另外,这些处理***和方法的诸方面可以采用微处理器来实施,这些微处理器带有基于软件的电路仿真技术、(顺序和组合)离散逻辑、用户设备、模糊(神经元)逻辑、量子设备以及上述任何类型设备的混合。当然,也能够以各种部件类型来提供下面的设备技术,譬如,金属氧化物半导体场效应三极管(MOSFET)技术(如互补金属氧化物半导体(CMOS))、双极性技术(如射极耦合逻辑(ECL)电路)、聚合物技术(如硅结合聚合物和金属结合聚合物金属结构)、混合模拟和数字技术等等。
[064]应当注意,这里公布的各种部件可以被描述或表达(或表示)成嵌入各种计算机可读媒体的数据和/或指令。可以实现这些数据和/或指令的计算机可读媒体包括(但不限于)各种形式的非易失性存储媒体(譬如光学的、磁性的或半导体存储媒体)以及可以通过无线、光学或有线信号介质或它们的任何组合来发送这些格式化数据和/或指令的载波。由载波发送这些数据和/或指令的示例包括(但不限于)借助一个或多个数据发送协议(譬如HTTP、FTP、SMTP等)通过因特网和/或其他计算机网络加以发送。在计算机***内部经由一个或多个计算机可读媒体接收后,上述部件的基于这些数据和/或指令的表达式可以由该计算机***内的处理实体(譬如一个或多个处理器)结合一个或多个其他计算机程序的执行来进行处理。
[065]除非本文特别明确要求,在整个说明书和权利要求书中,“包括”(comprise、comprising)等类似词语都按照它的内含意义来理解,并不具有“唯一”或“毫无遗漏”的含义;就是说,它的意义是“包括,但不限于”。使用单数或复数的单词也分别包括复数或单数。另外,单词“这里”(herein)、“下文”(hereunder)、“上述”(above)、“下面”(below)以及类似含义的词语是指整个这个申请而不是指这个申请的任何独特部分。词语“或者”(or)被用来针对两个以上细项的清单,这个单词包括对该单词的如下解释:该清单中的任何细项、该清单中的所有细项以及该清单中诸细项的任意组合。
[066]对这些处理***和方法的演示性实施例的上述说明并不是想要成为详尽的说明,也不是要将这些处理***和方法局限于所公布的准确形式。这些处理***和方法的特定实施例及示例在这里是为了演示目的而加以说明的,所以,熟悉相关技术的人员可以理解,在这些处理***和方法的范围内可以存在各种等效的修改形式。对这里提供的处理***和方法的解释能够被应用于其他处理***和方法,而不仅仅是被应用于上述***和方法。
[067]上述各种实施例的要素和作用可以被组合起来提供更多的实施例。借助上述详细说明,可以对这些处理***和方法作出这些或其他改变。
[068]这份说明书中提到的每个出版物、专利和/或专利申请都同等地被整体参考编入,就像表明每个独立出版物、专利和/或专利申请要被专门地、独立地参考编入一样。
[069]总之,在下述权利要求中,所采用的条款不应当被解释为将这些处理***和方法局限于该说明书和权利要求书中所公布的特定实施例,而应当解释为包括按照该权利要求书运行的所有处理***。相应地,这些处理***和方法不受本说明书限制,但是,这些处理***和方法的范围完全由该权利要求书来确定。
[070]既然这些处理***和方法的一些方面在下面以权利要求的形式提出,所以本发明人期待这些处理***和方法的各个方面都以任意数量的权利要求的形式提出。举例来说,既然这些处理***和方法中只有一个方面被书面陈述为以机器可读媒体方式实施,那么其他方面也可能类似地以机器可读媒体形式实施。所以,本发明人保留在提出该申请后添加附加权利要求的权利,以便为这些处理***和方法的其他方面继续寻求这种附加的权利要求。

Claims (19)

1、一种处理口语的方法,包括:
将多个口语单词转变为文本单词序列;
用词类(POS)标签来标记该文本单词序列中的单词;
用不流利性鉴别器来标记该文本单词序列中的被剪辑单词,该鉴别器利用采用技术生成的特性集运行,这些技术包括:
仅仅使这些标签的多层结构中的最高层POS标签得到匹配;以及
借助POS标签和被剪辑单词标签信息将该文本单词序列解析为机器指令。
2、权利要求1中的方法,其中这些标签的多层结构中的最高层POS标签包括对应于“与名词相关”、“与动词相关”、“名词修饰语”和“动词修饰语”这些类别的标签。
3、权利要求1中的方法,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括允许原始拷贝的POS标签序列中有单个失配。
4、权利要求1中的方法,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括引入到下一个相同拼写的单词的距离作为调节变量。
5、权利要求4中的方法,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少5个位置的单词窗口尺寸。
6、权利要求5中的方法,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少5个位置的POS标签窗口尺寸。
7、权利要求6中的方法,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少3个位置的不完全单词窗口尺寸。
8、权利要求1中的方法,它还包括在解析该文本单词序列之前删除被剪辑单词标签信息中与顺序相关的错误。
9、一种处理口语的***,包括:
用于将多个口语单词转变为文本单词序列的语言识别单元;
用于将文本单词序列中的单词贴上词类(POS)标签的词类标志器;
用于标记该文本单词序列中的被剪辑单词的不流利性鉴别器;其中,该不流利性鉴别器利用借助技术生成的特性集运行,这些技术包括:
仅仅使这些标签的多层结构中的最高层POS标签得到匹配;以及
用于借助POS标签和被剪辑单词标签信息来将该文本单词序列解析为机器指令的语法解析器。
10、权利要求9中的***,其中这些标签的多层结构中的最高层POS标签包括对应于“与名词相关”、“与动词相关”、“名词修饰语”和“动词修饰语”这些类别的标签。
11、权利要求9中的***,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括允许原始拷贝的POS标签序列中有单个失配。
12、权利要求9中的***,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括引入到下一个相同拼写的单词的距离作为调节变量。
13、权利要求12中的***,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少5个位置的单词窗口尺寸。
14、权利要求13中的***,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少5个位置的POS标签窗口尺寸。
15、权利要求14中的***,其中该不流利性鉴别器利用借助技术生成的特性集运行,该技术还包括采用增加或减少3个位置的不完全单词窗口尺寸。
16、一种用于生成不流利性鉴别器模型的方法,包括:
分析被转录语言中的语言修复分布;
选择与该语言修复分布相应的调节变量;
采用原始拷贝鉴别器和这些调节变量来生成特性集;而且
根据按照训练数据运行的迭代算法来给特性集加权。
17、权利要求16中的方法,其中所选的调节变量包括代表到下一个相同拼写的单词的距离的变量。
18、权利要求16中的方法,其中该原始拷贝鉴别器仅仅匹配这些标签的多层结构中的最高层POS标签。
19、权利要求16中的方法,其中该原始拷贝鉴别器允许原始拷贝的POS标签序列中有单个失配。
CN2006101421056A 2005-10-04 2006-09-30 不流利语句的自然语言处理 Active CN1945563B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/243,571 US7930168B2 (en) 2005-10-04 2005-10-04 Natural language processing of disfluent sentences
US11/243,571 2005-10-04

Publications (2)

Publication Number Publication Date
CN1945563A true CN1945563A (zh) 2007-04-11
CN1945563B CN1945563B (zh) 2012-05-30

Family

ID=37451155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101421056A Active CN1945563B (zh) 2005-10-04 2006-09-30 不流利语句的自然语言处理

Country Status (4)

Country Link
US (1) US7930168B2 (zh)
EP (1) EP1772853B1 (zh)
CN (1) CN1945563B (zh)
DE (1) DE602006018098D1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
CN107924394A (zh) * 2015-10-22 2018-04-17 国际商业机器公司 用于提供自然语言输出中的自然语言信号的自然语言处理器
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及***
CN111339786A (zh) * 2020-05-20 2020-06-26 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质

Families Citing this family (268)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001013255A2 (en) * 1999-08-13 2001-02-22 Pixo, Inc. Displaying and traversing links in character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US7860719B2 (en) * 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080071533A1 (en) * 2006-09-14 2008-03-20 Intervoice Limited Partnership Automatic generation of statistical language models for interactive voice response applications
US20080147579A1 (en) * 2006-12-14 2008-06-19 Microsoft Corporation Discriminative training using boosted lasso
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
ITFI20070177A1 (it) 2007-07-26 2009-01-27 Riccardo Vieri Sistema per la creazione e impostazione di una campagna pubblicitaria derivante dall'inserimento di messaggi pubblicitari all'interno di uno scambio di messaggi e metodo per il suo funzionamento.
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8364694B2 (en) 2007-10-26 2013-01-29 Apple Inc. Search assistant for digital media assets
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US8275607B2 (en) * 2007-12-12 2012-09-25 Microsoft Corporation Semi-supervised part-of-speech tagging
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8289283B2 (en) 2008-03-04 2012-10-16 Apple Inc. Language input interface on a device
JP4626662B2 (ja) * 2008-03-21 2011-02-09 ブラザー工業株式会社 データ保存装置及びコンピュータプログラム
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8396714B2 (en) * 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US20100082328A1 (en) * 2008-09-29 2010-04-01 Apple Inc. Systems and methods for speech preprocessing in text to speech synthesis
US8355919B2 (en) 2008-09-29 2013-01-15 Apple Inc. Systems and methods for text normalization for text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US20110010179A1 (en) * 2009-07-13 2011-01-13 Naik Devang K Voice synthesis and processing
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8311838B2 (en) * 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE202011111062U1 (de) 2010-01-25 2019-02-19 Newvaluexchange Ltd. Vorrichtung und System für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110213610A1 (en) * 2010-03-01 2011-09-01 Lei Chen Processor Implemented Systems and Methods for Measuring Syntactic Complexity on Spontaneous Non-Native Speech Data by Using Structural Event Detection
US9390188B2 (en) 2010-04-12 2016-07-12 Flow Search Corp. Methods and devices for information exchange and routing
US8819070B2 (en) * 2010-04-12 2014-08-26 Flow Search Corp. Methods and apparatus for information organization and exchange
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US9104670B2 (en) 2010-07-21 2015-08-11 Apple Inc. Customized search or acquisition of digital media assets
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US8682678B2 (en) * 2012-03-14 2014-03-25 International Business Machines Corporation Automatic realtime speech impairment correction
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9195645B2 (en) * 2012-07-30 2015-11-24 Microsoft Technology Licensing, Llc Generating string predictions using contexts
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US10031968B2 (en) 2012-10-11 2018-07-24 Veveo, Inc. Method for adaptive conversation state management with filtering operators applied dynamically as part of a conversational interface
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US10685181B2 (en) 2013-03-06 2020-06-16 Northwestern University Linguistic expression of preferences in social media for prediction and recommendation
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9514221B2 (en) * 2013-03-14 2016-12-06 Microsoft Technology Licensing, Llc Part-of-speech tagging for ranking search results
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
CN112230878A (zh) 2013-03-15 2021-01-15 苹果公司 对中断进行上下文相关处理
AU2014233517B2 (en) 2013-03-15 2017-05-25 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US10121493B2 (en) 2013-05-07 2018-11-06 Veveo, Inc. Method of and system for real time feedback in an incremental speech input interface
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9536522B1 (en) * 2013-12-30 2017-01-03 Google Inc. Training a natural language processing model with information retrieval model annotations
US10607188B2 (en) * 2014-03-24 2020-03-31 Educational Testing Service Systems and methods for assessing structured interview responses
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2631975C2 (ru) * 2014-08-29 2017-09-29 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для обработки входных команд пользователя
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US20160104476A1 (en) 2014-10-09 2016-04-14 International Business Machines Corporation Cognitive Security for Voice Phishing Activity
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
CN105843811B (zh) * 2015-01-13 2019-12-06 华为技术有限公司 转换文本的方法和设备
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10042921B2 (en) * 2015-09-18 2018-08-07 International Business Machines Corporation Robust and readily domain-adaptable natural language interface to databases
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
DE102016115243A1 (de) * 2016-04-28 2017-11-02 Masoud Amri Programmieren in natürlicher Sprache
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
CN107678561A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 基于人工智能的语音输入纠错方法及装置
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN112084766B (zh) * 2019-06-12 2024-01-23 阿里巴巴集团控股有限公司 文本处理方法和装置、存储介质和处理器
KR20190089128A (ko) * 2019-07-10 2019-07-30 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
KR20190118996A (ko) * 2019-10-01 2019-10-21 엘지전자 주식회사 음성 처리 방법 및 음성 처리 장치
KR20210050901A (ko) * 2019-10-29 2021-05-10 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11829720B2 (en) 2020-09-01 2023-11-28 Apple Inc. Analysis and validation of language models
US11736609B2 (en) * 2021-02-22 2023-08-22 Joshco Group, Llc Systems and methods of automated validation of electronic data via a user interface
US20230020574A1 (en) * 2021-07-16 2023-01-19 Intuit Inc. Disfluency removal using machine learning
US11556722B1 (en) * 2022-08-28 2023-01-17 One AI, Inc. System and method for editing transcriptions with improved readability and correctness

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794177A (en) * 1995-07-19 1998-08-11 Inso Corporation Method and apparatus for morphological analysis and generation of natural language text
US7251781B2 (en) * 2001-07-31 2007-07-31 Invention Machine Corporation Computer based summarization of natural language documents
WO2004003887A2 (en) * 2002-06-28 2004-01-08 Conceptual Speech, Llc Multi-phoneme streamer and knowledge representation speech recognition system and method
JP3768205B2 (ja) * 2003-05-30 2006-04-19 沖電気工業株式会社 形態素解析装置、形態素解析方法及び形態素解析プログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus
CN107924394A (zh) * 2015-10-22 2018-04-17 国际商业机器公司 用于提供自然语言输出中的自然语言信号的自然语言处理器
CN107924394B (zh) * 2015-10-22 2021-05-11 国际商业机器公司 用于提供自然语言输出中的自然语言信号的自然语言处理器
CN108847237A (zh) * 2018-07-27 2018-11-20 重庆柚瓣家科技有限公司 连续语音识别方法及***
CN111339786A (zh) * 2020-05-20 2020-06-26 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN111339786B (zh) * 2020-05-20 2020-08-25 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US7930168B2 (en) 2011-04-19
EP1772853A1 (en) 2007-04-11
CN1945563B (zh) 2012-05-30
US20070078642A1 (en) 2007-04-05
DE602006018098D1 (de) 2010-12-23
EP1772853B1 (en) 2010-11-10

Similar Documents

Publication Publication Date Title
CN1945563A (zh) 不流利语句的自然语言处理
CN108519890B (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
CN107766324B (zh) 一种基于深度神经网络的文本一致性分析方法
CN110471936B (zh) 一种混合式sql自动评分方法
Machová et al. A bagging method using decision trees in the role of base classifiers
CN110880019A (zh) 通过无监督域适应训练目标域分类模型的方法
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
CN110597979A (zh) 一种基于自注意力的生成式文本摘要方法
CN112102813B (zh) 基于用户评论中上下文的语音识别测试数据生成方法
CN109376247A (zh) 一种基于关联规则的软件缺陷自动分类方法
CN111125356A (zh) 一种文本分类方法及***
CN104021180B (zh) 一种组合式软件缺陷报告分类方法
CN105677639A (zh) 一种基于短语结构句法树的英文词义消歧方法
CN114742071A (zh) 基于图神经网络的汉越跨语言观点对象识别分析方法
CN111597316A (zh) 融合语义与问题关键信息的多阶段注意力答案选取方法
CN117787253B (zh) 基于双门控机制和依赖导向注意力网络的三元组抽取方法
CN112328469B (zh) 一种基于嵌入技术的函数级缺陷定位方法
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法
CN117709465A (zh) 一种基于大语言模型的关键信息抽取方法
Pullen et al. Mitigating data quality impairment on entity resolution errors in student enrollment data
CN115408056A (zh) 一种基于信息检索和神经网络的代码摘要自动生成方法
CN113590821B (zh) 一种隐含语篇关系的分类方法
CN115422349A (zh) 一种基于预训练生成模型的层次文本分类方法
CN110472243B (zh) 一种中文拼写检查方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant