CN112668317A - 用于确定输出词法单元的方法和设备 - Google Patents

用于确定输出词法单元的方法和设备 Download PDF

Info

Publication number
CN112668317A
CN112668317A CN202010434539.3A CN202010434539A CN112668317A CN 112668317 A CN112668317 A CN 112668317A CN 202010434539 A CN202010434539 A CN 202010434539A CN 112668317 A CN112668317 A CN 112668317A
Authority
CN
China
Prior art keywords
probability
candidate
model
ranking
output lexical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010434539.3A
Other languages
English (en)
Inventor
李敏重
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN112668317A publication Critical patent/CN112668317A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Operations Research (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

提供了一种用于确定输出词法单元的方法和设备。用于确定输出词法单元的方法包括:预测第一模型的每个候选输出词法单元的第一概率;预测与第一模型相互作用的第二模型的每个候选输出词法单元的第二概率;基于第一概率调节每个候选输出词法单元的第二概率;以及基于第一概率和调节后的第二概率,在候选输出词法单元之中确定输出词法单元。

Description

用于确定输出词法单元的方法和设备
本申请要求于2019年10月15日提交到韩国知识产权局的第10-2019-0127876号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的通过引用包含于此。
技术领域
下面的描述涉及一种用于确定输出词法单元的方法和设备,更具体地,涉及一种形成两个或更多个人工神经网络的集成的方法。
背景技术
已经引入了编码器-解码器人工神经网络模型,用于在接收具有不确定长度的序列作为输入之后生成具有不确定长度的输出,编码器-解码器人工神经网络模型是一种序列到序列模型。
序列到序列模型可在各种应用领域中使用,以在与输入序列不同的域中输出序列。例如,序列到序列模型可主要用于聊天机器人和机器翻译。可通过将输入序列和输出序列分别配置为问题和答案来构造聊天机器人。在机器翻译中,可通过将输入序列和输出序列分别配置为输入句子和翻译的句子来构造翻译器。序列到序列模型也可用于文本摘要和语音到文本(STT)识别。
发明内容
提供本发明内容以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容既不意在确定要求权利的主题的关键特征或必要特征,也不意在用于帮助确定要求权利的主题的范围。
在一个总体方面,一种确定输出词法单元的方法包括:预测第一模型的每个候选输出词法单元的第一概率;预测与第一模型相互作用的第二模型的每个候选输出词法单元的第二概率;基于第一概率调节每个候选输出词法单元的第二概率;以及基于第一概率和调节后的第二概率,在候选输出词法单元之中确定输出词法单元。
调节的步骤可包括:基于第一概率确定第一模型的候选输出词法单元的排名;以及基于所述排名调节第二概率。
基于所述排名调节第二概率的步骤可包括:使用基于所述排名确定的函数来调节第二概率。
基于所述排名调节第二概率的步骤可包括:基于根据所述排名确定的比例系数和阈值系数中的一个或二者来调节第二概率。
调节的步骤可包括:基于第一概率确定第一模型的候选输出词法单元的排名;基于所述排名,从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元;以及调节与提取的目标候选输出词法单元对应的第二概率。
调节与提取的目标候选输出词法单元对应的第二概率的步骤可包括:使用基于所述排名确定的函数来调节与提取的目标候选输出词法单元对应的第二概率。
所述方法还可包括:将调节后的第二概率归一化。
归一化的步骤可包括:将调节后的第二概率归一化,使得调节后的第二概率的总和为1。
所述方法还可包括:执行波束搜索以在候选输出词法单元之中搜索预设数量的候选输出词法单元;以及在执行波束搜索时将调节后的第二概率归一化。
确定输出词法单元的步骤可包括:计算第一概率和调节后的第二概率的加权和;以及将候选输出词法单元之中的具有最大加权和的候选输出词法单元确定为输出词法单元。
施加到第一概率的权重可大于施加到调节后的第二概率的权重。
预测第一概率的步骤可包括:基于由第一模型和第二模型先前确定的输出词法单元来预测第一概率。预测第二概率的步骤可包括:基于由第一模型先前确定的输出词法单元预测第二概率。
在另一总体方面,一种用于确定输出词法单元的设备包括一个或多个处理器。所述一个或多个处理器可被配置为:预测第一模型的每个候选输出词法单元的第一概率;预测与第一模型相互作用的第二模型的每个候选输出词法单元的第二概率;基于第一概率调节第二概率;以及基于第一概率和调节后的第二概率,在候选输出词法单元之中确定输出词法单元。
所述一个或多个处理器可被配置为:基于第一概率确定第一模型的候选输出词法单元的排名;以及基于所述排名调节第二概率。
所述一个或多个处理器可被配置为:使用基于所述排名确定的函数来调节第二概率。
所述一个或多个处理器可被配置为:基于根据所述排名确定的比例系数和阈值系数中的一个或二者来调节第二概率。
所述一个或多个处理器可被配置为:基于第一概率确定第一模型的候选输出词法单元的排名;基于所述排名,从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元;以及调节与提取的目标候选输出词法单元对应的第二概率。
所述一个或多个处理器可被配置为:使用基于所述排名确定的函数来调节与提取的目标候选输出词法单元对应的第二概率。
所述一个或多个处理器可被配置为:将调节后的第二概率归一化。
所述一个或多个处理器可被配置为:将调节后的第二概率归一化,使得调节后的第二概率的总和为1。
所述一个或多个处理器可被配置为:执行波束搜索以在候选输出词法单元之中搜索预设数量的候选输出词法单元;以及在执行波束搜索时将调节后的第二概率归一化。
所述一个或多个处理器可被配置为:计算第一概率与调节后的第二概率的加权和;以及将候选输出词法单元之中的具有最大加权和的候选输出词法单元确定为输出词法单元。
施加到第一概率的权重可大于施加到调节后的第二概率的权重。
所述一个或多个处理器可被配置为:基于根据第一模型和第二模型先前确定的输出词法单元来预测第一概率;以及基于根据第一模型先前确定的输出词法单元预测第二概率。
在另一总体方面,一种用于确定词法单元的设备包括一个或多个处理器。所述一个或多个处理器可被配置为:基于候选词法单元的第一概率对候选词法单元进行排名;基于每个候选词法单元的排名确定每个候选词法单元的权重;通过以相应的权重对每个第二概率加权来调节候选词法单元的第二概率;基于第一概率和调节后的第二概率,计算每个候选词法单元的加权和;以及输出具有最大加权和的候选词法单元。
所述一个或多个处理器可被配置为:通过基于候选词法单元的第一概率,将候选词法单元分组为两个或更多个排名组来对候选词法单元进行排名;以及确定每个排名组的不同的权重。
所述一个或多个处理器可被配置为:确定每个候选词法单元的权重,使得具有比第二候选词法单元的第一概率高的第一概率的第一候选词法单元具有比第二候选词法单元的权重大的权重。
所述一个或多个处理器可被配置为:基于每个候选词法单元的排名,将每个候选词法单元的权重确定为大于1、1或在0与1之间。
所述一个或多个处理器可被配置为:按从具有最高第一概率的候选词法单元到具有最低第一概率的候选词法单元的降序顺序,对候选词法单元进行排名。
从下面的具体实施方式、附图和权利要求,其他特征和方面将是清楚的。
附图说明
图1是示出对多个人工神经网络模型进行组合的集成方法的示例的示图。
图2是示出集成模型的示例的示图。
图3是示出集成模型的操作的示例的流程图。
图4是示出基于第一概率来调节第二概率的方法的示例的流程图。
图5是示出用于调节第二概率的函数的示例的曲线图。
图6是示出将调节后的第二概率归一化的示例的示图。
图7是示出用于确定输出词法单元的设备的示例的示图。
贯穿附图和具体实施方式,除非另有描述或提供,否则相同的参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。
具体实施方式
提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或***的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或***的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不受限于在此阐述的顺序,而是除了必须以特定的顺序发生的操作之外,可如在理解本申请的公开之后将是清楚地那样被改变。
在此描述的特征可以以不同的形式来实现,而不应被解释为受限于在此描述的示例。相反,已仅提供在此描述的示例,以示出在理解本申请的公开之后将是清楚的实现在此描述的方法、设备和/或***的许多可行方式中的一些可行方式。
虽然诸如“第一”、“第二”和“第三”的术语可在此用于描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分区分开来。因此,在不脱离示例的教导的情况下,在此描述的示例中提及的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
贯穿说明书,当组件被描述为“连接到”或者“结合到”另一组件时,所述组件可直接“连接到”或者“结合到”所述另一组件,或者可存在介于其间的一个或更多个其他组件。相反,当元件被描述为“直接连接到”或者“直接结合到”另一元件时,可不存在介于其间的其他元件。同样地,例如“在…之间”和“紧接在…之间”以及“与…邻近”和“直接与…相邻”的相似表达也应以相同的方式来解释。如在此使用的,术语“和/或”包括相关联的所列项中的任何一个和任何两个或更多个的任何组合。
在此使用的术语仅用于描述各种示例,并且将不用于限制公开。除非上下文清楚地另有指示,否则单数形式也意在包括复数形式。术语“包括”、“包含”和“具有”指定存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但并不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常理解以及基于对本申请的公开的理解而通常理解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)将被解释为具有与它们在相关领域的上下文和本申请的公开中的含义一致的含义,并且将不以理想化或过于形式化的意义进行解释。
此外,在示例实施例的描述中,当认为在理解本申请的公开之后由此已知的结构或功能的详细描述将导致对示例实施例的模糊解释时,将省略这样的描述。
以下示例实施例可以以各种形式的产品(例如,个人计算机(PC)、膝上型计算机、平板PC、智能电话、电视(TV)、智能家电、智能车辆、自助服务终端和可穿戴装置)来实现。在下文中,将参照附图详细描述示例,并且附图中同样的参考标号始终表示同样的元件。
图1是示出对多个人工神经网络模型进行组合的集成方法的示例的示图。
集成方法可用于对多个模型的各个输出进行组合并获得单个最终输出。在此描述的模型可包括由人工神经网络实现的模型。例如,该模型可以是由人工神经网络实现的序列到序列模型。
序列到序列模型可用在需要用于输出与输入序列不同域的序列的技术的各种应用的领域中。序列到序列模型可包括编码器和解码器。编码器可按序列顺序接收输入序列,并且可通过对整个输入序列进行压缩来形成单个向量。单个向量可被称为上下文向量。当输入序列被压缩成单个上下文向量时,编码器可将上下文向量发送到解码器。然后,解码器可接收上下文向量并生成输出序列。
序列到序列模型可主要用于语音识别。例如,以序列到序列架构实现的语音识别模型可响应于输入语音,从输入语音生成与输入语音对应的识别结果。例如,识别结果可以是与输入语音对应的文本。在下文中,为了便于描述,将在这样的以序列到序列架构实现的语音识别模型中使用的集成方法描述为集成方法的示例。然而,模型的示例不限于以序列到序列架构实现的语音识别模型,并且各种类型的模型或装置可以是可适用的并被采用。
参照图1,语音识别模型可包括在语音识别模型中彼此组合的声学模型和语言模型。语音识别模型可将声学模型和语言模型进行组合,声学模型被配置为接收语音信息(例如,语音序列)作为输入并输出作为识别结果的文本(例如,词序列),语言模型被配置为预测词序列的概率。语音识别模型可由此改善语音识别的性能。例如,如图1中所示,声学模型包括编码器110和声学模型解码器120,语言模型包括语言模型解码器130。根据示例,声学模型可仅指示声学模型解码器120。
在下文中,将描述声学模型的操作。编码器110在不直接接收和处理语音信息111的情况下,接收通过将语音信息111转换为与语音信息111对应的向量的形式而获得的语音特征向量112。编码器110按序列顺序接收语音特征向量112,然后最终对语音信息111的所有集合进行压缩以生成上下文向量113。上下文向量113也可称为包括语音信息111的特征或编码的特征。当作为基于时间的信息的语音信息111被全部压缩成单个上下文向量113时,编码器110将上下文向量113发送到声学模型解码器120。声学模型解码器120接收上下文向量113,并按序列顺序逐个输出识别出的词。
声学模型解码器120可执行自回归解码。自回归解码是指基于直到每个词法单元的前一步骤为止已经被识别的词法单元来确定输出词法单元的解码方法,并且可用于通过人工神经网络来计算具有不确定长度的输出。
接收上下文向量113的声学模型解码器120接收指示句子的开始的开始词法单元SOS作为初始输入。接收开始词法单元SOS的声学模型解码器120预测接下来最有可能出现的词法单元。在此使用的术语“词法单元”指示形成单个序列的单元,并且该单元可以是词单元、子词单元和字符单元。在下文中,为了便于描述,词法单元将被描述为指示词单元。在第一时间步骤中,声学模型解码器120预测“Hi”作为将出现的下一个词。也就是说,声学模型解码器120将“Hi”确定为输出词法单元,并输出该输出词法单元作为语音识别结果。声学模型解码器120输入被确定为输出词法单元的“Hi”作为下一时间步骤的输入。在第二时间步骤中,声学模型解码器120从输入词“Hi”预测“Bixby”作为下一个词。声学模型解码器120输入“Bixby”作为下一时间步骤的输入。声学模型解码器120可如上所述预测下一个词出现,并输入预测的词作为下一时间步骤的输入,并且重复进行这样的预测和输入,直到指示句子的结尾的结尾词法单元EOS被预测为下一个词为止。
声学模型解码器120可在每个步骤中基于从编码器110计算的信息来获得输出词法单元。当获得输出词法单元时,声学模型解码器120可根据直到前一步骤为止已经选择的输入词法单元来获得输出词法单元。例如,当声学模型解码器120接收词法单元时,声学模型解码器120可基于接收到的词法单元来预测作为词法单元的候选的每个候选输出词法单元的概率,并基于预测的概率来确定最终输出词法单元。在这个示例中,声学模型解码器120可在候选输出词法单元之中选择具有最大概率的候选输出词法单元作为最终输出词法单元。
步骤i中的候选输出词法单元ti的条件概率可由等式1表示。
[等式1]
p(ti|tl,t2,...,ti-1,He)
在等式1中,He表示编码器110的隐藏表示,并且可对应于上下文向量113。此外,t1至ti-1表示直到当前时间步骤为止已经被识别的词法单元。声学模型解码器120可基于上下文向量113和识别的词法单元来确定下一输出词法单元。
语音识别模型可通过额外使用与声音模型一起预测词序列的概率的语言模型来提高语音识别的性能。语言模型可预测整个句子的概率。在此之前,当先前的词被给出时,语言模型可预测下一个词出现的概率。语言模型可仅利用语言模型解码器130来配置,而无需额外的编码器,并且可仅使用文本来训练。
当存在相似发音的词时,语言模型可实现更准确的语音识别。例如,当词“Minchul”和词“feels”被给出时,语言模型可确定词“高兴(happy)”比词“习惯(habit)”更可能跟随给出的词。也就是说,语言模型可确定词“happy”跟随给出的词的概率大于词“habit”跟随给出的词的概率。
声学模型可处理信号特性与语言元素之间的关系,并且例如估计语音信号的发音。语言模型可估计词或句子的语法或语义正确性。
编码器110、声学模型解码器120和语言模型解码器130可由人工神经网络(例如,循环神经网络(RNN))来实现。编码器110可以是被配置为接收序列(例如,语音)作为输入的RNN。声学模型解码器120和语言模型解码器130可以是被配置为输出序列(例如,作为语音识别的结果的文本)的RNN。除了RNN之外,编码器110、声学模型解码器120和语言模型解码器130还可由例如深度神经网络(DNN)和循环深度神经网络(RDNN)来实现。
人工神经网络可包括多个层,每个层包括多个神经元。相邻层的神经元可通过突触连接。通过训练,权重可被分配给突触,参数可包括这样的权重。
人工神经网络的层可包括输入层、隐藏层和输出层。例如,输入层可接收用于训练或识别的输入,并且将接收到的输入发送到隐藏层,输出层可基于从隐藏层的神经元接收到的信号来生成人工神经网络的输出。隐藏层可将通过输入层发送的训练数据或目标识别数据(作为将被识别的目标)改变为可预测的值,其中,隐藏层可以是输入层与输出层之间的中间层。
语音识别模型可使用声学模型解码器120和语言模型解码器130的集成从输入语音的序列生成最终识别结果的序列。
声学模型解码器120和语言模型解码器130可以以词法单元为单位输出各自的识别结果,并且通过基于集成权重对识别结果进行组合来生成最终识别结果。例如,声学模型解码器120可基于输入语音和先前确定的识别结果来确定候选输出词法单元,语言模型解码器130可基于先前确定的识别结果来确定候选输出词法单元。语音识别模型可通过基于预设的集成权重计算每个候选输出词法单元的概率的加权和来生成最终识别结果。
例如,声学模型解码器120和语言模型解码器130可基于先前确定的输出词法单元“my”、“number”和“is”输出候选输出词法单元“eight”和“ate”。声学模型解码器120可将候选输出词法单元“eight”的概率和候选输出词法单元“ate”的概率分别预测为0.35和0.4。语言模型解码器130可将候选输出词法单元“eight”的概率和候选输出词法单元“ate”的概率分别预测为0.8和0.001。在这个示例中,当声学模型解码器120和语言模型解码器130的集成权重比为0.8:0.2时,候选输出词法单元“eight”可具有最终权重0.44(0.8×0.35+0.2×0.8=0.44),候选输出词法单元“ate”可具有最终权重0.3202(0.8×0.4+0.2×0.001=0.3202)。因此,语音识别模型可将具有较大权重的候选输出词法单元“eight”确定为最终输出词法单元。
在用于对多个模型的输出进行组合并获得单个最终输出的集成方法中,在计算加权和时分配有最大权重的模型可被称为主模型,除了主模型之外的模型可被称为辅助模型。例如,在语音识别模型中,声学模型可以是主模型,语言模型可以是辅助模型。
在仅基于模型的加权和生成最终识别结果的情况下,在辅助模型的预测结果不是绝对大到足以推翻加权和的结果时,即使预测结果是正确的,也可能无法获得期望的结果。例如,在通过被配置为训练或学习训练数据的人工神经网络对声学模型和语言模型进行训练或建模的情况下,当上下文中的在训练数据中不经常出现的稀有词法单元是正确答案时,更可能经历上面描述的这种问题。
例如,当输入语音是“我最喜欢的动物是树懒(my favorite animal is asloth)”时,因为词“slots”和输入语音中的词“sloth”的发音相似,所以声学模型可将更常用的且经常被学习作为正确答案的词“slots”的概率预测为0.4。在这个示例中,声学模型可将作为正确答案的词“sloth”的概率预测为0.306(参照下面的表1)。在表1中,y*表示候选输出词法单元,PAsR(y*|…)表示基于声学模型预测的候选输出词法单元y*的概率,PLM(y*|…)表示基于语言模型预测的候选输出词法单元y*的概率。
[表1]
y<sup>*</sup> P<sub>ASR</sub>(y<sup>*</sup>|…) P<sub>LM</sub>(y<sup>*</sup>|…)
sloth 0.306 0.05
slots 0.4 0.003
dog 0.05 0.3
cat 0.03 0.24
相比之下,通过考虑输入语音的部分“我最喜欢的动物是(my favorite animalis)”,语言模型可将指示动物的种类并且作为语法上和语义上自然的词或句子的词“sloth”的概率预测为0.05。此外,语言模型可将词“slots”的概率预测为0.003。然而,参照表1,当仅使用给定的先前的词训练或学习时,语言模型可将指示动物的种类并且在训练数据中经常看到的词“dog”的概率预测为0.3。与词“sloth”和词“slots”的各自的概率相比,词“dog”的预测概率0.3是绝对更大的值。
在这种情况下,作为主模型的声学模型可能具有比作为辅助模型的语言模型的权重更大的权重,因此即使语言模型将词“sloth”预测为具有比由主模型选择的词“slots”的概率大的概率,词“slots”也可能被确定为集成结果。
因此,为了解决上述内容中描述的这种问题,集成方法可基于主模型的候选输出词法单元的概率来调节辅助模型的候选输出词法单元的概率,并通过使用基于主模型调节的概率计算加权和来确定最终输出词法单元。
图2是示出集成模型的示例的示图。
参照图2,集成模型包括第一模型210、第二模型220、调节器230和集成器250。根据示例,集成模型还可包括归一化器240。
集成模型可表示被配置为执行以上参照图1描述的集成方法的设备或装置。集成模型可通过将第一模型210的输出和第二模型220的输出进行组合来获得单个输出。第一模型210可以是以上参照图1描述的主模型(例如,声学模型),第二模型220可以是上面参照图1描述的辅助模型。
调节器230可使用第一模型210中的候选输出词法单元的排名来重新调节第二模型220的预测的概率值。在下文中将参照图3至图5来描述调节器230的详细操作。
归一化器240可执行归一化,使得第二模型220的候选输出词法单元的调节后的概率之和为1。通过加权和获得的概率值除了用于确定最终输出词法单元之外,还可用于另外的目的。出于另外的目的,归一化器240可将候选输出词法单元的概率之和归一化为1,并且将概率调节为具有有意义的值。在下文中将参照图6描述归一化器240的详细操作。
图3是示出集成模型的操作的示例的流程图。
在下文中将参照图3描述的操作310至操作340可通过以上参照图2描述的集成模型来执行。集成模型可由一个或多个硬件模块、一个或多个软件模块或它们的各种组合来实现。
参照图3,在操作310中,第一模型预测第一模型的候选输出词法单元的第一概率。如上所述,第一模型可以是集成模型的主模型,并且可以是语音识别模型的声学模型。声学模型可预测作为输出词法单元的候选的候选输出词法单元,并且预测每个候选的概率。
在操作320中,与第一模型相互作用的第二模型预测第二模型的候选输出词法单元的第二概率。第二模型可以是集成模型的辅助模型,并且可以是语音识别模型的语言模型。语言模型可预测作为输出词法单元的候选的候选输出词法单元,并且预测每个候选的概率。声学模型和语言模型可基于同一候选输出词法单元集合来预测候选输出词法单元。
在操作330中,调节器基于第一概率调节第二概率。如上所述,在仅基于每个模型的加权和生成最终识别结果的情况下,当辅助模型的预测结果不是绝对大到足以推翻加权和的结果时,即使预测结果是正确的,也可能无法获得期望的结果。因此,调节器可基于第一模型的候选输出词法单元的第一概率来调节第二模型的候选输出词法单元的第二概率。
例如,当输入语音是“my favorite animal is a sloth”时,语言模型或第二模型可将候选“sloth”的概率预测为大于候选“slots”的概率。然而,这样的预测的概率可能不是绝对大到足以推翻加权和计算的结果,因此,由声学模型或第一模型选择的候选“slots”可能被确定为集成结果(参照下面表2)。
在一个示例中,加权和计算可包括计算将被执行加权和计算的每个概率值的加权和的方法,以及计算通过将对数应用于每个概率而获得的值的加权和的方法。在下文中,为了便于描述,将主要描述计算将被执行加权和计算的每个概率值的加权和的方法。
[表2]
Figure BDA0002501722980000121
为了解决上述内容中描述的这种问题,调节器可调节语言模型或第二模型的预测值,从而从候选(例如,前n个候选,n为大于或等于1且小于候选的数量的正整数)生成最终识别结果,所述候选的概率被声学模型或第一模型高度预测。调节器可使用预定函数基于第一模型的候选输出词法单元的排名来重新调节第二模型的第二概率。在下文中,将参照图4和图5来描述基于第一概率调节第二概率的方法。
图4是示出基于第一概率来调节第二概率的方法的示例的流程图。将在下文中参照图4描述的操作410至操作430可通过以上参照图2和图3描述的调节器来执行。
参照图4,在操作410中,调节器基于第一模型的候选输出词法单元的第一概率来确定候选输出词法单元的排名。调节器可从具有最大的第一概率的候选输出词法单元开始以序列顺序确定候选输出词法单元的排名。在一个示例中,调节器可按从具有最高第一概率的候选输出词法单元到具有最低第一概率的候选输出词法单元的降序顺序,对候选输出词法单元进行排名。
在操作420中,调节器基于确定的排名从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元。调节器可基于根据排名确定的阈值系数来提取目标候选输出词法单元。调节器可将所有候选输出词法单元确定为目标候选输出词法单元,或者将候选输出词法单元的一部分确定为目标候选输出词法单元。例如,调节器可确定所有候选输出词法单元之中的前n个候选输出词法单元。可选地,调节器可确定所有候选输出词法单元之中的前n个候选输出词法单元和后n个候选输出词法单元。可选地,调节器可将所有候选输出词法单元确定为目标候选输出词法单元。
在操作430中,调节器使用基于排名确定的函数来调节与提取的目标候选输出词法单元对应的第二概率。调节器可基于根据排名确定的比例系数来调节目标候选输出词法单元的第二概率。将在操作430中使用的函数可以以各种方式(例如,线性函数或非线性函数)来实现。例如,参照上面的表2,使用了将前n个候选输出词法单元的各自的第二概率提高10倍并将剩余的候选输出词法单元的各自的第二概率提高0.1倍的函数。作为提高的结果,作为前n个候选输出词法单元中的一个的候选“sloth”的第二概率从0.05增加到0.5,作为前n个候选输出词法单元中的另一个的候选“slots”的第二概率从0.003增加到0.03。此外,不包括在前n个候选输出词法单元中的候选“狗(dog)”的第二概率从0.3降低到0.03,不包括在前n个候选输出词法单元中的候选“猫(cat)”的第二概率从0.24降低到0.024。
因为由第一模型(或主模型)预测的前n个候选输出词法单元之中很可能存在正确答案,所以尽管它们可能不是完全正确的,但是调节器可调节第二模型(或辅助模型)的候选输出词法单元的概率,使得由第一模型预测的前n个候选输出词法单元具有足够大的概率。在下文中,将参照图5描述使由第一模型预测的前n个候选输出词法单元具有足够大的概率的函数。
图5是示出用于调节第二概率的函数的示例的曲线图。
当训练数据中不经常出现的词法单元是正确答案或真相时,基于上下文和先前输出词法单元预测输出词法单元的语言模型的预测性能可显著降低。同时,声学模型可基于输入语音信息来预测输出词法单元,因此即使在这样的情况下,也可具有预测性能的一致水平。在一个示例中,在此使用的函数可被设计为反映这样的情况。
参照图5,在此使用的函数可以是将基于第一概率确定的排名中的前20%候选中的每个候选的第二概率乘以十倍因子(例如,因子/权重为1),保持排名中的前20%至60%候选中的每个候选的第二概率,并将排名中的前60%至100%候选中的每个的第二概率乘以0.1倍因子。
通过该函数,基于第一概率确定的排名中的前20%候选中的每个候选的第二概率可增加十倍,因此更有可能在排名中的前20%候选之中确定最终输出词法单元。此外,可将在前20%候选之中的具有最大第二概率的候选(例如,基于输入语音确定的候选之中的最适合上下文的候选)确定为最终输出词法单元。
返回参照图3,在操作340中,集成器基于第一概率和调节后的第二概率,在候选输出词法单元之中确定最终输出词法单元。例如,集成器可基于权重比(例如,1:0.3)来计算第一概率和调节后的第二概率的加权和。在这个示例中,参照上面的表2,集成器可通过获得第一概率0.306和调节后的第二概率0.5的加权和来输出候选“sloth”的最终权重0.456,并且通过获得第一概率0.4和调节后的第二概率0.03的加权和输出候选“slots”的最终权重0.409。在这个示例中,集成器可将具有最大权重的候选“sloth”确定为最终输出词法单元。
在仅基于每个模型的加权和来生成最终识别结果的情况下,候选“slots”可被确定为最终输出词法单元。然而,集成模型可通过基于主模型的候选输出词法单元的概率调节辅助模型的候选输出词法单元的概率,来将候选“sloth”确定为最终输出词法单元。
图6是示出将调节后的第二概率归一化的示例的示图。
归一化器可被配置为将调节后的第二概率归一化,使得调节后的第二概率的和为1。除了确定最终输出词法单元的目的之外,通过加权和获得的概率值可用于另外的目的。归一化器可执行归一化,使得候选输出词法单元的概率之和为1,并且归一化器可将概率调节为具有有意义的值,而不是简单地使用概率来确定最终输出词法单元。
例如,在波束搜索(beam search)的情况下,候选输出词法单元的概率可不仅用于确定最终输出词法单元,而且可以在以后使用。波束搜索可用于将候选句子的分数进行比较,并且整个句子的分数可使用每个词法单元的概率的乘积来被建模或训练。当对波束搜索执行建模时,候选输出词法单元的概率之和可能需要为1。因此,为了使集成器执行波束搜索,可能需要将调节后的第二概率归一化。
图6示出了波束搜索的示例。
例如,如图所示,词“red”、“dog”、“blue”和“runs”可被生成为可能跟随第一时间步骤中的词“a”、“the”和“red”的候选词。可从所生成的词之中按序列顺序选择最有可能跟随第一时间步骤中的词的预设数量的候选词。例如,当预设数量为3时,可选择词“red”、“dog”和“blue”,并且可排除词“runs”。
此外,词“dog”、“dog”和“cat”可被生成为可能跟随第二时间步骤中的词“red”、“dog”和“blue”的候选词。也可从生成的候选词之中按序列顺序选择预设数量的候选词。
通过如上所述的波束搜索,可有效地获得识别结果“今天一条红狗跑得很快(ared dog runs quickly today)610”,而无需搜索所有候选路径。
图7是示出用于确定输出词法单元的设备的示例的示图。
参照图7,用于确定输出词法单元的设备700包括一个或多个传感器710、处理器730和通信接口770。设备700还包括存储器750和显示器790。传感器710、处理器730、存储器750、通信接口770和显示器790可通过通信总线705彼此通信。设备700可包括以上参照图1至图6描述的集成模型。
例如,传感器710可包括麦克风传感器和语音或声音传感器。
处理器730可执行以上参照图1至图6描述的操作或方法中的一个或多个操作或方法或者全部操作或方法,并执行与操作或方法中的一个或多个操作或方法或者全部操作或方法对应的算法。处理器730可执行程序并控制设备700。将由处理器730执行的程序的代码可被存储在存储器750中。
例如,处理器730可以是中央处理器(CPU)或图形处理器(GPU)。
处理器730可预测第一模型的每个候选输出词法单元的第一概率,预测第二模型的每个候选输出词法单元的第二概率,基于第一概率调节第二概率,并基于第一概率和调节后的第二概率在候选输出词法单元之中确定最终输出词法单元。
处理器730可基于第一概率来确定第一模型的候选输出词法单元的排名,并且可基于确定的排名来调节第二概率。在一个示例中,处理器730可通过基于候选输出词法单元的第一概率,将候选输出词法单元分组为两个或更多个排名组来对候选输出词法单元进行排名,并且可确定每个排名组的不同的权重。基于每个候选输出词法单元的排名,每个候选输出词法单元的权重可被确定为大于1、1或在0与1之间。处理器730可使用基于排名确定的函数来调节第二概率。处理器730可基于根据排名确定的比例系数来调节第二概率。处理器730可基于第一概率确定第一模型的候选输出词法单元的排名,基于所述排名从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元,并且基于所述排名调节与提取的目标候选输出词法单元对应的第二概率。处理器730可将调节后的第二概率归一化。处理器730可将第二概率归一化,使得调节后的第二概率的总和为1。处理器730可计算第一概率和调节后的第二概率的加权和,并将候选输出词法单元之中的具有最大加权和的候选输出词法单元确定为最终输出词法单元。处理器730可基于根据第一模型和第二模型先前确定的输出词法单元来预测第一概率,并且可基于先前确定的输出词法单元来预测第二概率。
存储器750可存储由处理器730处理的数据。例如,存储器750可存储程序。将被存储的程序可以是通过被编码为执行语音识别的可由处理器730执行的语法的集合。存储器750可以是易失性存储器或非易失性存储器。
通信接口770可通过连接到传感器710、处理器730和存储器750来发送和接收数据。通信接口770可通过连接到外部装置来发送和接收数据。在此使用的术语“发送和接收A”可指示“发送和接收指示A的信息或数据”。
通信接口770可由设备700中的电路来实现。例如,通信接口770可包括内部总线和外部总线。对于另一示例,通信接口770可以是连接设备700和另一外部装置的元件。通信接口770可从外部装置接收数据,并且将接收到的数据发送到处理器730和存储器750。
显示器790可显示解码的结果。例如,显示器790可显示输出词法单元的结果。
在此针对图2和图7描述的用于确定输出词法单元的设备和其他设备、单元、模块、装置以及其他组件由硬件组件实现。可用于执行本申请中描述的操作的硬件组件的示例在适当的情况下包括:控制器、传感器、发生器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器以及被配置为执行本申请中描述的操作的任意其他电子组件。在其他示例中,执行本申请中描述的操作的硬件组件中的一个或多个由计算硬件(例如,由一个或多个处理器或计算机)实现。处理器或计算机可由一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任意其他装置或装置的组合)实现。在一个示例中,处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如,操作***(OS)和在OS上运行的一个或多个软件应用),以执行本申请中描述的操作。硬件组件还可响应于指令或软件的执行而访问、操作、处理、创建和存储数据。为了简单起见,单数术语“处理器”或“计算机”可用于本申请中描述的示例的描述中,但在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件或多种类型的处理元件或者两者。例如,单个硬件组件或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器实现。一个或多个硬件组件可由一个或多个处理器、或者处理器或控制器实现,一个或多个其他硬件组件可由一个或多个其他处理器、或者另外的处理器和另外的控制器实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任意一个或多个,其中,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、多指令多数据(MIMD)多处理。
图1和图3至图6中示出的执行本申请中描述的操作的方法由计算硬件(例如,由一个或多个处理器或计算机)执行,其中,该计算硬件被实现为如以上描述地执行指令或软件,以执行通过所述方法执行的本申请中描述的操作。例如,单个操作或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器执行,一个或多个其他操作可由一个或多个其他处理器、或者另外的处理器和另外的控制器执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。
用于控制处理器或计算机来实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任意组合,以单独或共同地指示或配置处理器或计算机作为机器或专用计算机进行操作,来执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包含由处理器或计算机使用解释器执行的高级代码。本领域的普通技术的程序员可基于附图中示出的框图和流程图以及说明书中的相应的描述容易地编写指令或软件,其中,附图中示出的框图和流程图以及说明书中的相应的描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。
用于控制处理器或者计算机以实现硬件组件并执行如上所述的方法的指令或软件、以及任意相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如,多媒体卡或微型卡(例如,安全数字(SD)或极限数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任意其他装置,所述任意其他装置被配置为以非暂时性的方式存储指令或软件以及任意相关联的数据、数据文件和数据结构,并向处理器或者计算机提供指令或软件以及任意相关联的数据、数据文件和数据结构,使得处理器或者计算机可执行指令。
虽然本公开包括特定的示例,但是将清楚的是,在不脱离权利要求及它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节的各种改变。在此描述的示例应被认为仅是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述将被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的***、架构、装置或电路中的组件以不同的方式被组合,和/或由其他组件或它们的等同物替换或补充,则可实现合适的结果。
因此,公开的范围不是由具体实施方式限定,而是由权利要求及它们的等同物限定,并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims (30)

1.一种确定输出词法单元的方法,所述方法包括:
预测第一模型的每个候选输出词法单元的第一概率;
预测与第一模型相互作用的第二模型的每个候选输出词法单元的第二概率;
基于第一概率调节每个候选输出词法单元的第二概率;以及
基于第一概率和调节后的第二概率,在候选输出词法单元之中确定输出词法单元。
2.根据权利要求1所述的方法,其中,调节的步骤包括:
基于第一概率确定第一模型的候选输出词法单元的排名;以及
基于所述排名调节第二概率。
3.根据权利要求2所述的方法,其中,基于所述排名调节第二概率的步骤包括:
使用基于所述排名确定的函数来调节第二概率。
4.根据权利要求2所述的方法,其中,基于所述排名调节第二概率的步骤包括:
基于根据所述排名确定的比例系数和阈值系数中的一个或二者来调节第二概率。
5.根据权利要求1所述的方法,其中,调节的步骤包括:
基于第一概率确定第一模型的候选输出词法单元的排名;
基于所述排名,从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元;以及
调节与提取的目标候选输出词法单元对应的第二概率。
6.根据权利要求5所述的方法,其中,调节与提取的目标候选输出词法单元对应的第二概率的步骤包括:
使用基于所述排名确定的函数来调节与提取的目标候选输出词法单元对应的第二概率。
7.根据权利要求1所述的方法,所述方法还包括:
将调节后的第二概率归一化。
8.根据权利要求7所述的方法,其中,归一化的步骤包括:
将调节后的第二概率归一化,使得调节后的第二概率的总和为1。
9.根据权利要求1所述的方法,所述方法还包括:
执行波束搜索以在候选输出词法单元之中搜索预设数量的候选输出词法单元;以及
在执行波束搜索时将调节后的第二概率归一化。
10.根据权利要求1所述的方法,其中,确定输出词法单元的步骤包括:
计算第一概率和调节后的第二概率的加权和;以及
将候选输出词法单元之中的具有最大加权和的候选输出词法单元确定为输出词法单元。
11.根据权利要求7所述的方法,其中,施加到第一概率的权重大于施加到调节后的第二概率的权重。
12.根据权利要求1所述的方法,其中,预测第一概率的步骤包括:
基于由第一模型和第二模型先前确定的输出词法单元来预测第一概率,
其中,预测第二概率的步骤包括:
基于由第一模型先前确定的输出词法单元预测第二概率。
13.一种存储指令的非暂时性计算机可读存储介质,当由处理器执行所述指令时使得处理器执行如权利要求1至12中的任意一项所述的方法。
14.一种用于确定输出词法单元的设备,所述设备包括:
一个或多个处理器,被配置为:
预测第一模型的每个候选输出词法单元的第一概率;
预测与第一模型相互作用的第二模型的每个候选输出词法单元的第二概率;
基于第一概率调节每个候选输出词法单元的第二概率;以及
基于第一概率和调节后的第二概率,在候选输出词法单元之中确定输出词法单元。
15.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
基于第一概率确定第一模型的候选输出词法单元的排名;以及
基于所述排名调节第二概率。
16.根据权利要求15所述的设备,其中,所述一个或多个处理器被配置为:
使用基于所述排名确定的函数来调节第二概率。
17.根据权利要求15所述的设备,其中,所述一个或多个处理器被配置为:
基于根据所述排名确定的比例系数和阈值系数中的一个或二者来调节第二概率。
18.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
基于第一概率确定第一模型的候选输出词法单元的排名;
基于所述排名,从候选输出词法单元之中提取将对其执行调节的目标候选输出词法单元;以及
调节与提取的目标候选输出词法单元对应的第二概率。
19.根据权利要求18所述的设备,其中,所述一个或多个处理器被配置为:
使用基于所述排名确定的函数来调节与提取的目标候选输出词法单元对应的第二概率。
20.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
将调节后的第二概率归一化。
21.根据权利要求20所述的设备,其中,所述一个或多个处理器被配置为:
将调节后的第二概率归一化,使得调节后的第二概率的总和为1。
22.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
执行波束搜索以在候选输出词法单元之中搜索预设数量的候选输出词法单元;以及
在执行波束搜索时将调节后的第二概率归一化。
23.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
计算第一概率与调节后的第二概率的加权和;以及
将候选输出词法单元之中的具有最大加权和的候选输出词法单元确定为输出词法单元。
24.根据权利要求23所述的设备,其中,施加到第一概率的权重大于施加到调节后的第二概率的权重。
25.根据权利要求14所述的设备,其中,所述一个或多个处理器被配置为:
基于根据第一模型和第二模型先前确定的输出词法单元来预测第一概率;以及
基于根据第一模型先前确定的输出词法单元预测第二概率。
26.一种用于确定词法单元的设备,包括:
一个或多个处理器,被配置为:
基于候选词法单元的第一概率对候选词法单元进行排名;
基于每个候选词法单元的排名确定每个候选词法单元的权重;
通过以相应的权重对每个第二概率加权来调节候选词法单元的第二概率;
基于第一概率和调节后的第二概率,计算每个候选词法单元的加权和;以及
输出具有最大加权和的候选词法单元。
27.根据权利要求26所述的设备,其中,所述一个或多个处理器被配置为:
通过基于候选词法单元的第一概率,将候选词法单元分组为两个或更多个排名组来对候选词法单元进行排名;以及
确定每个排名组的不同的权重。
28.根据权利要求26所述的设备,其中,所述一个或多个处理器被配置为:
确定每个候选词法单元的权重,使得具有比第二候选词法单元的第一概率高的第一概率的第一候选词法单元具有比第二候选词法单元的权重大的权重。
29.根据权利要求26所述的设备,其中,所述一个或多个处理器被配置为:
基于每个候选词法单元的排名,将每个候选词法单元的权重确定为大于1、1或在0与1之间。
30.根据权利要求26所述的设备,其中,所述一个或多个处理器被配置为:
按从具有最高第一概率的候选词法单元到具有最低第一概率的候选词法单元的降序顺序,对候选词法单元进行排名。
CN202010434539.3A 2019-10-15 2020-05-21 用于确定输出词法单元的方法和设备 Pending CN112668317A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020190127876A KR20210044559A (ko) 2019-10-15 2019-10-15 출력 토큰 결정 방법 및 장치
KR10-2019-0127876 2019-10-15

Publications (1)

Publication Number Publication Date
CN112668317A true CN112668317A (zh) 2021-04-16

Family

ID=70857113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010434539.3A Pending CN112668317A (zh) 2019-10-15 2020-05-21 用于确定输出词法单元的方法和设备

Country Status (4)

Country Link
US (1) US11574190B2 (zh)
EP (1) EP3809405A1 (zh)
KR (1) KR20210044559A (zh)
CN (1) CN112668317A (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210032105A (ko) * 2019-09-16 2021-03-24 한국전자통신연구원 랭킹 기반 네트워크 임베딩을 이용한 군집화 방법 및 장치
CN113129870B (zh) * 2021-03-23 2022-03-25 北京百度网讯科技有限公司 语音识别模型的训练方法、装置、设备和存储介质
US20230161977A1 (en) * 2021-11-24 2023-05-25 Beijing Youzhuju Network Technology Co. Ltd. Vocabulary generation for neural machine translation
KR20240087937A (ko) * 2022-12-12 2024-06-20 숙명여자대학교산학협력단 재귀 신경망 모델의 앙상블 방법 및 시스템

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7020593B2 (en) 2002-12-04 2006-03-28 International Business Machines Corporation Method for ensemble predictive modeling by multiplicative adjustment of class probability: APM (adjusted probability model)
CN101548313B (zh) 2006-11-16 2011-07-13 国际商业机器公司 话音活动检测***和方法
JP4838743B2 (ja) 2007-02-27 2011-12-14 静岡県 類似文章検索プログラム
KR20120048139A (ko) 2010-11-05 2012-05-15 한국전자통신연구원 자동 번역 장치 및 그 방법
PT2639749T (pt) 2012-03-15 2017-01-18 Cortical Io Gmbh Métodos, aparelhos e produtos para processamento semântico de texto
JP5982297B2 (ja) 2013-02-18 2016-08-31 日本電信電話株式会社 音声認識装置、音響モデル学習装置、その方法及びプログラム
US9159317B2 (en) 2013-06-14 2015-10-13 Mitsubishi Electric Research Laboratories, Inc. System and method for recognizing speech
JP6222821B2 (ja) 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム
US9728185B2 (en) 2014-05-22 2017-08-08 Google Inc. Recognizing speech using neural networks
KR102380833B1 (ko) 2014-12-02 2022-03-31 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
KR102396983B1 (ko) 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
KR20160133349A (ko) 2015-05-12 2016-11-22 삼성전자주식회사 구 표 생성 방법 및 구 표를 이용한 기계 번역 방법
KR102386854B1 (ko) 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US10354182B2 (en) * 2015-10-29 2019-07-16 Microsoft Technology Licensing, Llc Identifying relevant content items using a deep-structured neural network
KR102450853B1 (ko) 2015-11-30 2022-10-04 삼성전자주식회사 음성 인식 장치 및 방법
CN107195299A (zh) 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10019438B2 (en) 2016-03-18 2018-07-10 International Business Machines Corporation External word embedding neural network language models
US11030515B2 (en) * 2016-12-30 2021-06-08 Google Llc Determining semantically diverse responses for providing as suggestions for inclusion in electronic communications
JP7086993B2 (ja) * 2017-05-10 2022-06-20 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
JP7084617B2 (ja) * 2018-06-27 2022-06-15 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
KR20200056001A (ko) 2018-11-14 2020-05-22 삼성전자주식회사 인공신경망에서의 디코딩 방법 및 그 장치
US11372868B2 (en) * 2019-01-14 2022-06-28 Oracle International Corporation Parsing of unstructured log data into structured data and creation of schema
US10983761B2 (en) * 2019-02-02 2021-04-20 Microsoft Technology Licensing, Llc Deep learning enhanced code completion system
US11763132B2 (en) * 2019-06-11 2023-09-19 International Business Machines Corporation Detecting non-anomalous and anomalous sequences of computer-executed operations
US11262984B2 (en) * 2019-08-01 2022-03-01 Microsoft Technology Licensing, Llc. Multi-lingual line-of-code completion system
US11698904B2 (en) * 2019-09-05 2023-07-11 Home Depot Product Authority, Llc Query rewrite for low performing queries based on customer behavior

Also Published As

Publication number Publication date
US11574190B2 (en) 2023-02-07
KR20210044559A (ko) 2021-04-23
EP3809405A1 (en) 2021-04-21
US20210110259A1 (en) 2021-04-15

Similar Documents

Publication Publication Date Title
US11900915B2 (en) Multi-dialect and multilingual speech recognition
US11113479B2 (en) Utilizing a gated self-attention memory network model for predicting a candidate answer match to a query
US9984682B1 (en) Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items
KR102339716B1 (ko) 음성 인식 방법 및 그 장치
CN106469552B (zh) 语音识别设备和方法
US10540967B2 (en) Machine reading method for dialog state tracking
CN109410924B (zh) 识别方法和识别设备
US11210470B2 (en) Automatic text segmentation based on relevant context
CN112668317A (zh) 用于确定输出词法单元的方法和设备
CN112905735A (zh) 用于自然语言处理的方法和设备
US10963819B1 (en) Goal-oriented dialog systems and methods
US10789942B2 (en) Word embedding system
EP3826007B1 (en) Method and apparatus with speech processing
CN112700778B (zh) 语音识别方法和语音识别设备
CN111081230A (zh) 语音识别方法和设备
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
CN112331206A (zh) 语音识别方法及设备
CN111192576A (zh) 解码方法、语音识别设备和***
CN112397058A (zh) 解码方法、训练方法以及语音识别设备
WO2019235103A1 (ja) 質問生成装置、質問生成方法及びプログラム
US20230034414A1 (en) Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program
KR102368064B1 (ko) 텍스트 기반 사전 학습 모델을 활용한 종단형 음성언어이해 지식 증류를 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
US20230104228A1 (en) Joint Unsupervised and Supervised Training for Multilingual ASR
CN112597270A (zh) 响应推断方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination