CN108122035B - 端到端建模方法及*** - Google Patents

端到端建模方法及*** Download PDF

Info

Publication number
CN108122035B
CN108122035B CN201611070244.2A CN201611070244A CN108122035B CN 108122035 B CN108122035 B CN 108122035B CN 201611070244 A CN201611070244 A CN 201611070244A CN 108122035 B CN108122035 B CN 108122035B
Authority
CN
China
Prior art keywords
layer
coding
object element
node
reinforcing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611070244.2A
Other languages
English (en)
Other versions
CN108122035A (zh
Inventor
潘嘉
张仕良
熊世富
魏思
胡国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201611070244.2A priority Critical patent/CN108122035B/zh
Priority to JP2019535428A priority patent/JP6838161B2/ja
Priority to EP17875986.6A priority patent/EP3550477A4/en
Priority to KR1020197003257A priority patent/KR102232643B1/ko
Priority to PCT/CN2017/070812 priority patent/WO2018098892A1/zh
Priority to US16/329,368 priority patent/US11651578B2/en
Publication of CN108122035A publication Critical patent/CN108122035A/zh
Application granted granted Critical
Publication of CN108122035B publication Critical patent/CN108122035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N99/00Subject matter not provided for in other groups of this subclass
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种端到端建模方法及***,该方法包括:确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;收集大量训练数据;确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;提取所述训练数据的特征序列;利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。利用本发明,可以提高建模的准确度。

Description

端到端建模方法及***
技术领域
本发明涉及机器学习领域,具体涉及一种端到端建模方法及***。
背景技术
端到端建模指根据输入端特征序列和输出端特征序列之间的对应关系建立模型,端到端建模在模式识别或机器学习领域应用广泛,如常用于语音识别、图像识别、机器翻译等应用***中,建立输入端到输出端之间的对应关系以实现各应用***的需求。以语音识别为例,端到端建模可以对声学模型和语言模型进行联合建模,直接输出识别文本;如中文中常将汉字或词语作为建模单元,即目标标注单元,通过学习输入语音信号序列到输出汉字或词语之间的对应关系进行建模。
现有的端到端建模方法一般是基于编码解码模型实现,包括以下步骤:
(1)确定编码解码模型拓扑结构;
(2)收集大量训练数据,提取训练数据的特征序列,并确定相应目标标注信息;
(3)利用训练数据的特征序列及相应目标标注信息对模型参数进行训练。
其中,编码解码模型的拓扑结构如图1所示,主要由输入层、编码层、解码层及相应输出层组成,编码层对输入层输入的特征序列进行编码后,由相应解码层对编码后的特征序列进行解码,将解码后的特征序列作为输出层的输入,输出层输出每个目标标注单元的后验概率。
由图1可以看出,该模型仅对输入特征序列进行编码,得到相应编码信息后,直接将所述编码信息作为解码层的输入,利用解码层对所述编码信息进行解码。这种方式会使编码后得到的特征序列与目标标注单元差距较大,不能很好地建立输入端到输出端特征序列之间的关系,降低了建模准确度。
发明内容
本发明实施例提供一种端到端建模方法及***,以提高建模的准确度。
为此,本发明提供如下技术方案:
一种端到端建模方法,包括:
确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;
收集大量训练数据;
确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;
提取所述训练数据的特征序列;
利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
优选地,所述编码层为一层或多层,每层编码层的节点数与输入层相同。
优选地,每层编码层采用单向或双向长短时记忆神经网络中的长短时记忆层,或者采用卷积神经网络中的卷积层。
优选地,所述拓扑结构还包括:位于相邻编码层之间的降采样层。
优选地,所述降采样层为一层或多层。
优选地,所述降采样层每个节点的输入为上一编码层的相邻多个节点特征信息。
优选地,所述目标单元信息通过强化节点加入到强化编码层中,每个目标单元对应一个强化节点,所述强化节点的输入为对应的目标单元的特征向量,强化编码层的层数和强化节点数均与目标单元数相同。
优选地,每个强化节点与其对应的强化编码层的节点全连接;或者每个强化节点仅与其对应的强化编码层的第一个节点连接。
优选地,所述过滤层的层数与所述强化编码层的层数相同,每层强化编码层与一层过滤层直接相连接。
优选地,所述过滤层采用单向或双向长短时记忆层的结构方式,过滤层内节点数与强化编码层内节点数相同,每层强化编码层输出的特征直接作为与其连接的过滤层的输入,过滤层最后一个节点的输出作为该过滤层的输出;或者
所述过滤层采用卷积神经网络的卷积层和池化层的结构方式,每层过滤层包括一层或多层卷积层和一层池化层,所述池化层的输出作为该层过滤层的输出。
优选地,所述利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练包括:
将所述训练数据的特征序列作为所述端到端模型的输入,将所述训练数据中目标单元的标注信息作为所述端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及偏置。
一种端到端建模***,包括:
拓扑结构确定模块,用于确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;
训练数据收集模块,用于收集大量训练数据;
标注模块,用于确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;
特征提取模块,用于提取所述训练数据的特征序列;
参数训练模块,用于利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
优选地,所述编码层为一层或多层,每层编码层的节点数与输入层相同。
优选地,每层编码层采用单向或双向长短时记忆神经网络中的长短时记忆层,或者采用卷积神经网络中的卷积层。
优选地,所述拓扑结构还包括:位于相邻编码层之间的降采样层。
优选地,所述降采样层为一层或多层。
优选地,所述降采样层每个节点的输入为上一编码层的相邻多个节点特征信息。
优选地,所述目标单元信息通过强化节点加入到强化编码层中,每个目标单元对应一个强化节点,所述强化节点的输入为对应的目标单元的特征向量,强化编码层的层数和强化节点数均与目标单元数相同。
优选地,每个强化节点与其对应的强化编码层的节点全连接;或者每个强化节点仅与其对应的强化编码层的第一个节点连接。
优选地,所述过滤层的层数与所述强化编码层的层数相同,每层强化编码层与一层过滤层直接相连接。
优选地,所述过滤层采用单向或双向长短时记忆层的结构方式,过滤层内节点数与强化编码层内节点数相同,每层强化编码层输出的特征直接作为与其连接的过滤层的输入,过滤层最后一个节点的输出作为该过滤层的输出;或者所述过滤层采用卷积神经网络的卷积层和池化层的结构方式,每层过滤层包括一层或多层卷积层和一层池化层,所述池化层的输出作为该层过滤层的输出。
优选地,所述参数训练模块将所述训练数据的特征序列作为所述端到端模型的输入,将所述训练数据中目标单元的标注信息作为所述端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及偏置。
本发明实施例提供的端到端建模方法及***,在基于目标的端到端模型的拓扑结构中增加强化编码层和过滤层。由所述强化编码层对所述编码层输出的特征序列加入目标单元标注信息,使得强化编码后的编码特征序列包含更完整的信息,有效降低了编码特征序列与目标标注单元的差距;由所述过滤层对所述强化编码层加入所述目标单元标注信息后的特征序列进行信息过滤,去除强化编码后的冗余信息,解码层利用过滤后的特征序列进行解码,将解码后的特征序列作为输出层的输入,得到输出层规整后的特征序列,有效地提高了输入端到输出端的建模准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有技术中编码解码模型的拓扑结构示意图;
图2是本发明实施例端到端建模方法的流程图;
图3是本发明实施例中基于目标的端到端模型拓扑结构示意图;
图4是本发明实施例在所图3所示的拓扑结构中在编码层之间***降采样层的示意图;
图5A是本发明实施例中强化节点与强化编码层节点的一种连接示意图;
图5B是本发明实施例中强化节点与强化编码层节点的另一种连接示意图;
图6A是本发明实施例中强化编码层与过滤层的一种连接示意图;
图6B是本发明实施例中强化编码层与过滤层的另一种连接示意图;
图7是本发明实施例端到端建模***的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对现有技术端到端建模方法存在的上述问题,本发明实施例提供一种端到端建模方法及***,在基于目标的端到端模型的拓扑结构中增加强化编码层和过滤层,也就是说,基于目标的端到端模型的拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;由所述强化编码层对所述编码层输出的特征序列加入目标单元标注信息,使得强化编码后的编码特征序列包含更完整的信息,有效降低了编码特征序列与目标标注单元的差距;由所述过滤层对所述强化编码层加入所述目标单元标注信息后的特征序列进行信息过滤,去除强化编码后的冗余信息,解码层利用过滤后的特征序列进行解码,将解码后的特征序列作为输出层的输入,得到输出层规整后的特征序列,有效地提高了输入端到输出端的建模准确度。
如图2所示,是本发明实施例端到端建模方法的流程图,包括以下步骤:
步骤201,确定基于目标的端到端模型的拓扑结构。
与现有的编码解码模型相比,在本发明实施例中基于目标的端到端模型的拓扑结构中增加了强化编码层和过滤层,具体地,所述端到端模型的拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;其中,所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,从而使得强化编码后的编码特征序列包含更完整的信息,有效降低了编码特征序列与目标单元的差距;所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤,从而去除强化编码后的冗余信息,解码层利用过滤后的特征序列进行解码,将解码后的特征序列作为输出层的输入,得到输出层规整后的特征序列。对于该基于目标的端到端模型的具体结构将在后面详细描述。
步骤202,收集大量训练数据。
所述训练数据可以根据应用需求收集,如训练数据可以为语音数据、图像数据或文本数据等。
步骤203,确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注。
所述目标单元可以根据应用需求确定,通常可以由领域专家对所述训练数据对应的标注对象进行标注得到,所述标注对象也可以是所述训练数据本身。
需要说明的是,在实际应用中,所述目标单元可以根据应用需求确定,比如语音识别应用中,收集的训练数据为语音数据,标注对象可以为所述语音数据对应的识别文本,将该识别文本中的单字或词语作为目标单元;再比如图像识别应用中,收集的训练数据为图像数据,标注对象可以为所述图像数据对应的识别文本,即通过图像识别得到的识别文本,将该识别文本中的单字或词语作为目标单元;再比如机器翻译应用中,收集的训练数据为源语种文本数据,标注对象可以是目标语种文本数据,将该目标语种文本数据中单字或词语作为目标单元。
步骤204,提取所述训练数据的特征序列。
所述特征序列中的特征也可以根据应用需要来确定,比如,语音识别应用中,所述特征可以是各语音帧中表达语音数据的声学信息,如Filter Bank特征、MFCC特征或PLP特征等;再比如图像识别应用中,所述特征可以是每帧图像中像素点的取值;再比如机器翻译应用中,所述特征可以是每句源语种文本数据中每个词的词向量。
步骤205,利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
下面结合图3至图6对本发明实施例中基于目标的端到端模型进行详细说明。
如图3所示,是本发明实施例中基于目标的端到端模型的拓扑结构示意图。
所述基于目标的端到端模型拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层及输出层,具体拓扑结构及每层特征变换过程如下所述:
(1)输入层
输入层输入训练数据的特征序列,具体节点数根据训练数据的特征序列确定,如训练数据为语音数据时,输入层输入的特征序列为每句语音数据的每帧语音特征,输入层的节点数为每句语音数据的帧数,使用X={x1,x2,...,xt,...,xT}表示,其中xt表示当前训练数据第t帧的特征向量,T为当前训练数据的帧数。
(2)编码层
输入层输入的特征序列经过编码层进行编码,所述编码层可以为一或多层,每层编码层的节点数与输入层相同,每层编码层可以采用单向或双向长短时记忆神经网络中长短时记忆层或卷积神经网络的卷积层,具体采用哪种结构可以根据应用需求确定,如对于训练数据较多的大词汇量语音识别任务,编码层可以采用3至5层的双向长短时记忆层,而对于训练数据较少的受限领域语音识别任务来说,编码层可以采用1至3层的单向长短时记忆层。
进一步地,为了提高编码层之间的计算效率,可以在编码层之间***一层降采样层;具体可以在多个相邻编码层之间分别***一层降采样层,共***多个降采样层,也可以选择任意两个相邻的编码层***一层降采样层,共***一层降采样层;***降采样层的编码层,编码层的节点数与其前面的降采样层的节点数相同,同样,最后一层编码层的节点数与最后一层降采样层节点数相同。比如,一般在语音识别或图像识别等多帧输入特征序列存在重叠的任务上,可以在编码层之间***降采样层,以提高计算效率。而对于机器翻译等输入特征序列不存在重叠的任务上,可以不在编码层之间***降采样层。
如图4为在编码层1和编码层2之间***降采样层的示意图,降采样层每个节点的输入为上一编码层的相邻多个节点特征信息,所述特征信息可以通过求上一编码层多个节点特征的最大值、平均值或求p范数等操作得到,从而达到降采样的目的。图4中降采样层每个节点的输入为其前一编码层相邻两个节点的特征信息,其中M表示编码层总数。
编码层的特征变换方法由编码层采用的相应结构的特征变换方法所决定,如编码层使用单向或双向长短时记忆层的结构时,第l个编码层的输出特征序列使用表示,表示第t帧、第l个编码层的输出特征向量,变换方法为其中f为单向或双向长短时变换函数,Dl为第l个编码层的每个节点中特征向量的维数。
(3)强化编码层
所述强化编码层加入了目标单元信息,对编码层输出的特征序列进行强化,从而使强化后的特征序列包含更完整的信息。
目标单元信息通过相应的强化节点加入到强化编码层中,每个目标单元对应一个强化节点,所述强化节点的输入为对应的目标单元的特征向量。
由于每个目标对象中的目标单元可能有多个,因此,需要多层强化编码层,每层强化编码层对应一个强化节点,强化编码层的层数和强化节点数均与目标单元数相同,每层强化编码层与该层对应的目标单元的前一个目标单元对应的强化节点连接。如图5A和5B所示,假设总共有N个目标单元,则需要有N层强化编码层,其中,强化编码层1对应一个空强化节点,强化编码层2对应第一个目标单元,强化编码层3对应第二个目标单元,依此类推,强化编码层N对应第N-1个目标单元,即将1至N-1个目标单元的信息逐层加入。以语音识别为例,以词为目标单元,当前语音数据的目标单元标注信息为“合肥今天的天气。”,则目标单元数为4,需要四层强化编码层及四个强化节点对编码层输出特征序列进行强化。对编码层输出特征序列进行强化时,如上例中目标单元“今天”对应的强化编码层与目标单元“合肥”对应的强化节点连接,第一个强化编码层与一个空强化节点连接。
当然,由于利用每个目标单元信息对编码层输出的特征序列进行强化的处理方式是相同的,因此在实际应用中,上述多层强化编码层也可以看作是一层强化编码层针对标注对象中的多个目标单元的逐次强化过程。
需要说明的是,在实际应用中,强化节点与强化编码层的连接方式可以有多种,比如,一种连接方式是每个强化节点与其对应的强化编码层的节点全连接,如图5A中所示;另一种连接方式是每个强化节点仅与其对应的强化编码层的第一个节点连接,如图5B中所示;图5A和5B中的N表示目标单元数。需要说明的是,前面提到的图3中仅示出了图5A中所示的第一种连接方式,即个强化节点与其对应的强化编码层的节点全连接的方式。上述第二种连接方式可以节省计算量,但强化效果没有第一种好。
每层强化编码层的节点数与最后一层编码层的节点数相同,强化编码层内节点之间的连接方式与编码层内节点之间的连接方式相同。
进行特征变换时,直接将每个强化节点表示的目标单元特征向量与强化编码层节点连接权重的乘积加到强化编码层相应节点表示的特征向量上即可。
(4)过滤层
所述过滤层用于对每层强化编码层强化后的特征序列进行信息过滤,过滤层的层数与强化编码层的层数相同,每层强化编码层与一层过滤层直接相连接。
在实际应用中,所述过滤层的结构可以采用以下两种方式:一种方式为单向或双向长短时记忆层的结构方式;另一种方式为卷积神经网络的卷积层和池化层的结构方式。
如图6A为强化编码层与过滤层的第一种连接方式,当采用第一种连接方式时,过滤层的层数与强化编码层的层数相同,过滤层内节点数与强化编码层内节点数相同,每层强化编码层输出的特征直接作为与该连接的过滤层的输入,使用过滤层最后一个节点的输出作为该过滤层的输出,即过滤后的强化编码信息。
如图6B为强化编码层与过滤层的第二种连接方式,当采用第二种连接方式时,过滤层直接使用一层或多层卷积层连接后,再与池化层连接的方式,将所述池化层的输出作为过滤后的强化编码信息这种连接方式采用了多个卷积层逐渐将强化编码信息从各个节点进行过滤和收集,最终汇聚到一个节点中。相比第一种连接方式中只使用一层过滤层进行过滤来说,第二种连接方式的过滤效果更好。
需要说明的是,前面提到的图3中仅示出了图6A中所示的第一种连接方式。
过滤层的特征变换方法分别与每种连接方式的特征变换方法相同,具体的变换过程在此不再赘述。
(5)解码层
所述解码层的输入为每个过滤层输出的过滤后的强化编码信息,解码层一般采用单向长短时记忆层的连接方式,解码层可以为一或多层;一般使用1到2层解码层即可;每层解码层的节点数与过滤层的层数相同;具体解码过程与现有技术相同,在此不再详述。
(6)输出层
将经过解码层变换的输出特征序列作为输出层的输入,输出层对输入特征序列进行规整后输出每个目标标注单元的后验概率向量序列,具体的规整方法可以采用现有技术,规整函数如softmax函数。
基于上述端到端模型的拓扑结构,在训练相应模型时,直接使用训练数据的特征序列作为端到端模型的输入,将相应目标单元的标注信息作为端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及相应偏置。具体参数训练过程可采用现有技术,如采用交叉熵作为模型的优化目标,利用误差反向传播算法对模型参数进行不断更新,比如采用多次迭代的方法对模型参数进行更新,当模型参数达到收敛目标时,停止迭代过程,完成模型参数的更新过程,得到端到端模型的模型参数。
可见,本发明实施例提供的端到端建模方法,在基于目标的端到端模型的拓扑结构中增加强化编码层和过滤层。在对输入特征序列进行编码后,为每个目标单元增加了强化编码层,由各层强化编码层依次将每个目标单元的前一个目标单元的信息加入到编码序列中,由于考虑了目标单元的历史信息,因此强化编码后的编码特征序列包含更完整的信息,有效降低了编码特征序列与目标单元的差距;进一步地,为了去除强化编码后的冗余信息,在每个强化编码层后还加入了过滤层,对强化编码后的特征序列进行信息过滤,利用过滤后的特征序列进行解码,将解码后的特征序列作为输出层的输入,得到输出层规整后的特征序列,从而有效提高了输入端到输出端的建模准确度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如:ROM/RAM、磁碟、光盘等。
相应地,本发明实施例还提供一种端到端建模***,如图7所示,是该***的一种结构示意图。
在该实施例中,所述***包括以下各模块:
拓扑结构确定模块701,用于确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;
训练数据收集模块702,用于收集大量训练数据;
标注模块703,用于确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;
特征提取模块704,用于提取所述训练数据的特征序列;
参数训练模块705,用于利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
所述基于目标的端到端模型的拓扑结构在前面介绍本发明方法实施例时已有详细说明,在此不再赘述。
基于该目标的端到端模型的拓扑结构,参数训练模块705在进行模型训练时,将所述训练数据的特征序列作为所述端到端模型的输入,将所述训练数据中目标单元的标注信息作为所述端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及偏置。具体参数训练过程可采用现有技术,如采用交叉熵作为模型的优化目标,利用误差反向传播算法对模型参数进行不断更新,比如采用多次迭代的方法对模型参数进行更新,当模型参数达到收敛目标时,停止迭代过程,完成模型参数的更新过程,得到端到端模型的模型参数。
可见,本发明实施例提供的端到端建模***,在基于目标的端到端模型的拓扑结构中增加强化编码层和过滤层。在对输入特征序列进行编码后,为每个目标单元增加了强化编码层,由各层强化编码层依次将每个目标单元的前一个目标单元的信息加入到编码序列中,由于考虑了目标单元的历史信息,因此强化编码后的编码特征序列包含更完整的信息,有效降低了编码特征序列与目标单元的差距;进一步地,为了去除强化编码后的冗余信息,在每个强化编码层后还加入了过滤层,对强化编码后的特征序列进行信息过滤,利用过滤后的特征序列进行解码,将解码后的特征序列作为输出层的输入,得到输出层规整后的特征序列,从而有效提高了输入端到输出端的建模准确度。
本发明实施例的端到端建模***中的各模块具体可以由存储器、处理器、以及一些其它硬件来实现,每个模块可以由一个或多个独立的硬件来实现,也可以是多个模块集成于一个硬件来实现。当然,一些模块的功能也可以由软件来实现,对此本发明实施例不做限定。
需要说明的是,本发明实施例提供的方法及***可以适用于模式识别或机器学习领域中的多种应用需求,如语音识别、图像识别、机器翻译等应用。以语音识别为例,端到端建模可以对声学模型和语言模型进行联合建模,直接输出识别文本;如中文中常将汉字或词语作为建模单元,即目标单元,通过学习输入语音信号序列到输出汉字或词语之间的对应关系进行建模。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及***;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (22)

1.一种端到端建模方法,其特征在于,包括:
确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括依次连接的:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;
收集大量训练数据;
确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;
提取所述训练数据的特征序列;
利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
2.根据权利要求1所述的方法,其特征在于,所述编码层为一层或多层,每层编码层的节点数与输入层相同。
3.根据权利要求2所述的方法,其特征在于,每层编码层采用单向或双向长短时记忆神经网络中的长短时记忆层,或者采用卷积神经网络中的卷积层。
4.根据权利要求1所述的方法,其特征在于,所述拓扑结构还包括:位于相邻编码层之间的降采样层。
5.根据权利要求4所述的方法,其特征在于,所述降采样层为一层或多层。
6.根据权利要求4所述的方法,其特征在于,所述降采样层每个节点的输入为上一编码层的相邻多个节点特征信息。
7.根据权利要求1所述的方法,其特征在于,所述目标单元信息通过强化节点加入到强化编码层中,每个目标单元对应一个强化节点,所述强化节点的输入为对应的目标单元的特征向量,强化编码层的层数和强化节点数均与目标单元数相同。
8.根据权利要求7所述的方法,其特征在于,每个强化节点与其对应的强化编码层的节点全连接;或者每个强化节点仅与其对应的强化编码层的第一个节点连接。
9.根据权利要求7所述的方法,其特征在于,所述过滤层的层数与所述强化编码层的层数相同,每层强化编码层与一层过滤层直接相连接。
10.根据权利要求9所述的方法,其特征在于,
所述过滤层采用单向或双向长短时记忆层的结构方式,过滤层内节点数与强化编码层内节点数相同,每层强化编码层输出的特征直接作为与其连接的过滤层的输入,过滤层最后一个节点的输出作为该过滤层的输出;或者
所述过滤层采用卷积神经网络的卷积层和池化层的结构方式,每层过滤层包括一层或多层卷积层和一层池化层,所述池化层的输出作为该层过滤层的输出。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练包括:
将所述训练数据的特征序列作为所述端到端模型的输入,将所述训练数据中目标单元的标注信息作为所述端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及偏置。
12.一种端到端建模***,其特征在于,包括:
拓扑结构确定模块,用于确定基于目标的端到端模型的拓扑结构,所述拓扑结构包括依次连接的:输入层、编码层、强化编码层、过滤层、解码层、输出层;所述强化编码层用于对所述编码层输出的特征序列加入目标单元信息,所述过滤层用于对所述强化编码层加入所述目标单元信息后的特征序列进行信息过滤;
训练数据收集模块,用于收集大量训练数据;
标注模块,用于确定所述训练数据的标注对象,并对所述标注对象中的目标单元进行标注;
特征提取模块,用于提取所述训练数据的特征序列;
参数训练模块,用于利用所述训练数据的特征序列及其目标单元的标注信息对基于目标的端到端模型的参数进行训练,得到基于目标的端到端模型参数。
13.根据权利要求12所述的***,其特征在于,所述编码层为一层或多层,每层编码层的节点数与输入层相同。
14.根据权利要求13所述的***,其特征在于,每层编码层采用单向或双向长短时记忆神经网络中的长短时记忆层,或者采用卷积神经网络中的卷积层。
15.根据权利要求12所述的***,其特征在于,所述拓扑结构还包括:位于相邻编码层之间的降采样层。
16.根据权利要求15所述的***,其特征在于,所述降采样层为一层或多层。
17.根据权利要求15所述的***,其特征在于,所述降采样层每个节点的输入为上一编码层的相邻多个节点特征信息。
18.根据权利要求12所述的***,其特征在于,所述目标单元信息通过强化节点加入到强化编码层中,每个目标单元对应一个强化节点,所述强化节点的输入为对应的目标单元的特征向量,强化编码层的层数和强化节点数均与目标单元数相同。
19.根据权利要求18所述的***,其特征在于,每个强化节点与其对应的强化编码层的节点全连接;或者每个强化节点仅与其对应的强化编码层的第一个节点连接。
20.根据权利要求18所述的***,其特征在于,所述过滤层的层数与所述强化编码层的层数相同,每层强化编码层与一层过滤层直接相连接。
21.根据权利要求20所述的***,其特征在于,
所述过滤层采用单向或双向长短时记忆层的结构方式,过滤层内节点数与强化编码层内节点数相同,每层强化编码层输出的特征直接作为与其连接的过滤层的输入,过滤层最后一个节点的输出作为该过滤层的输出;或者
所述过滤层采用卷积神经网络的卷积层和池化层的结构方式,每层过滤层包括一层或多层卷积层和一层池化层,所述池化层的输出作为该层过滤层的输出。
22.根据权利要求12至21任一项所述的***,其特征在于,所述参数训练模块将所述训练数据的特征序列作为所述端到端模型的输入,将所述训练数据中目标单元的标注信息作为所述端到端模型的输出,对所述端到端模型的模型参数进行训练,所述模型参数为所述端到端模型每层之间连接的权重转换矩阵及偏置。
CN201611070244.2A 2016-11-29 2016-11-29 端到端建模方法及*** Active CN108122035B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201611070244.2A CN108122035B (zh) 2016-11-29 2016-11-29 端到端建模方法及***
JP2019535428A JP6838161B2 (ja) 2016-11-29 2017-01-11 エンドツーエンドモデリング方法及びシステム
EP17875986.6A EP3550477A4 (en) 2016-11-29 2017-01-11 END-TO-END MODELING METHOD AND SYSTEM
KR1020197003257A KR102232643B1 (ko) 2016-11-29 2017-01-11 엔드 투 엔드 모델링 방법 및 시스템
PCT/CN2017/070812 WO2018098892A1 (zh) 2016-11-29 2017-01-11 端到端建模方法及***
US16/329,368 US11651578B2 (en) 2016-11-29 2017-01-11 End-to-end modelling method and system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611070244.2A CN108122035B (zh) 2016-11-29 2016-11-29 端到端建模方法及***

Publications (2)

Publication Number Publication Date
CN108122035A CN108122035A (zh) 2018-06-05
CN108122035B true CN108122035B (zh) 2019-10-18

Family

ID=62225306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611070244.2A Active CN108122035B (zh) 2016-11-29 2016-11-29 端到端建模方法及***

Country Status (6)

Country Link
US (1) US11651578B2 (zh)
EP (1) EP3550477A4 (zh)
JP (1) JP6838161B2 (zh)
KR (1) KR102232643B1 (zh)
CN (1) CN108122035B (zh)
WO (1) WO2018098892A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200003444A (ko) * 2018-07-02 2020-01-10 삼성전자주식회사 영상 모델 구축 장치 및 방법
CN108732550B (zh) * 2018-08-01 2021-06-29 北京百度网讯科技有限公司 用于预测雷达回波的方法和装置
CN109215662B (zh) * 2018-09-18 2023-06-20 平安科技(深圳)有限公司 端对端语音识别方法、电子装置及计算机可读存储介质
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
CN110263868A (zh) * 2019-06-24 2019-09-20 北京航空航天大学 基于SuperPoint特征的图像分类网络
CN112529986B (zh) * 2019-09-19 2023-09-22 百度在线网络技术(北京)有限公司 图文相关性的计算模型建立方法、计算方法及装置
CN111261140B (zh) * 2020-01-16 2022-09-27 云知声智能科技股份有限公司 韵律模型训练方法及装置
CN116783602A (zh) * 2021-02-04 2023-09-19 瑞典爱立信有限公司 构建可解释的机器学习模型
CN112905591B (zh) * 2021-02-04 2022-08-26 成都信息工程大学 一种基于机器学习的数据表连接顺序选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027114A1 (en) * 2009-09-03 2011-03-10 Peter Graham Craven Prediction of signals
CN104751227A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7756678B2 (en) 2008-05-29 2010-07-13 General Electric Company System and method for advanced condition monitoring of an asset system
JP5467951B2 (ja) 2010-07-05 2014-04-09 本田技研工業株式会社 ニューラルネットワーク学習装置
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
CN102982809B (zh) 2012-12-11 2014-12-10 中国科学技术大学 一种说话人声音转换方法
US9812150B2 (en) * 2013-08-28 2017-11-07 Accusonus, Inc. Methods and systems for improved signal decomposition
CN103544392B (zh) * 2013-10-23 2016-08-24 电子科技大学 基于深度学习的医学气体识别方法
JP6323947B2 (ja) * 2014-05-01 2018-05-16 日本放送協会 音響イベント認識装置、及びプログラム
JP2016139176A (ja) 2015-01-26 2016-08-04 シャープ株式会社 画像処理装置、画像処理システム、画像処理方法、およびその画像処理プログラム
US10403269B2 (en) * 2015-03-27 2019-09-03 Google Llc Processing audio waveforms
CN105551483B (zh) * 2015-12-11 2020-02-04 百度在线网络技术(北京)有限公司 语音识别的建模方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027114A1 (en) * 2009-09-03 2011-03-10 Peter Graham Craven Prediction of signals
CN104751227A (zh) * 2013-12-31 2015-07-01 安徽科大讯飞信息科技股份有限公司 深度神经网络的构建方法及***
CN106022237A (zh) * 2016-05-13 2016-10-12 电子科技大学 一种端到端的卷积神经网络的行人检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
End-to-end Continuous Speech Recognition using Attention-based Recurrent NN: First Results;Jan Chorowski 等;《Eprint Arxiv》;20141204;第1.2节,第2和3节,附图1 *

Also Published As

Publication number Publication date
JP6838161B2 (ja) 2021-03-03
KR102232643B1 (ko) 2021-03-26
KR20190025976A (ko) 2019-03-12
EP3550477A1 (en) 2019-10-09
US11651578B2 (en) 2023-05-16
CN108122035A (zh) 2018-06-05
EP3550477A4 (en) 2020-07-29
US20190279036A1 (en) 2019-09-12
WO2018098892A1 (zh) 2018-06-07
JP2019530119A (ja) 2019-10-17

Similar Documents

Publication Publication Date Title
CN108122035B (zh) 端到端建模方法及***
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN109785824A (zh) 一种语音翻译模型的训练方法及装置
CN109785833A (zh) 用于智能设备的人机交互语音识别方法及***
CN107391623A (zh) 一种融合多背景知识的知识图谱嵌入方法
CN110781893B (zh) 特征图的处理方法、图像处理方法、装置以及存储介质
CN109086805A (zh) 一种基于深度神经网络和成对约束的聚类方法
CN107679462A (zh) 一种基于小波的深度多特征融合分类方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN108664589A (zh) 基于领域自适应的文本信息提取方法、装置、***及介质
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN108665506A (zh) 图像处理方法、装置、计算机存储介质及服务器
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN113312453A (zh) 一种面向跨语言对话理解的模型预训练***
CN109597998A (zh) 一种视觉特征和语义表征联合嵌入的图像特征构建方法
CN110263164A (zh) 一种基于模型融合的情感倾向分析方法
CN113807340A (zh) 一种基于注意力机制的不规则自然场景文本识别方法
CN117237559B (zh) 面向数字孪生城市的三维模型数据智能分析方法及***
CN114238652A (zh) 一种用于端到端场景的工业故障知识图谱建立方法
CN113255569B (zh) 一种基于图空洞卷积编码器解码器的3d姿态估计方法
CN114021584B (zh) 基于图卷积网络和翻译模型的知识表示学习方法
CN109979461A (zh) 一种语音翻译方法及装置
CN113673325B (zh) 一种多特征人物情绪识别方法
CN115545005A (zh) 一种融合知识和约束图的远程监督关系抽取方法
CN114037051A (zh) 一种基于决策边界的深度学习模型压缩方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant