CN110377889B - 一种基于前馈序列记忆神经网络的文本编辑方法及*** - Google Patents

一种基于前馈序列记忆神经网络的文本编辑方法及*** Download PDF

Info

Publication number
CN110377889B
CN110377889B CN201910487145.1A CN201910487145A CN110377889B CN 110377889 B CN110377889 B CN 110377889B CN 201910487145 A CN201910487145 A CN 201910487145A CN 110377889 B CN110377889 B CN 110377889B
Authority
CN
China
Prior art keywords
neural network
edited
memory module
editing
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910487145.1A
Other languages
English (en)
Other versions
CN110377889A (zh
Inventor
吴立刚
刘迪
邱镇
黄晓光
浦正国
梁翀
韩涛
张天奇
余江斌
宋杰
何东
郭庆
吴小华
胡心颖
周伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Zhejiang Electric Power Co Ltd
Anhui Jiyuan Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Zhejiang Electric Power Co Ltd, Anhui Jiyuan Software Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910487145.1A priority Critical patent/CN110377889B/zh
Publication of CN110377889A publication Critical patent/CN110377889A/zh
Application granted granted Critical
Publication of CN110377889B publication Critical patent/CN110377889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于前馈序列记忆神经网络的文本编辑方法,属于语音信号处理技术领域,包括:获取待编辑的原始文本;接收编辑语音数据;对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;对所述编辑命令进行语义理解,执行所述编辑命令。本发明示例的技术方案,采用基于改进的前馈序列记忆神经网络进行语音识别,文本编辑更准确高效。

Description

一种基于前馈序列记忆神经网络的文本编辑方法及***
技术领域
本发明属于语音信号处理技术领域,具体而言是一种基于前馈序列记忆神经网络的文本编辑方法及***。
背景技术
随着手机的普及,人们每天都会在手机或平板电脑等便携式设备上接收到大量的文本信息。例如,短信、即时通讯类软件或其他软件推送的消息、网页内容和文字新闻等。当人们想要对文本信息中感兴趣的文字内容进行编辑时,首先需要将光标定位在感兴趣的文字内容处,再对选中的文字进行后续的操作,例如在光标位置新增文字、对选中的文字进行替换操作等,编辑过程复杂、不便捷。目前有技术是接收用户录入的语音数据,再根据语音数据对编辑对象执行相应的编辑操作即可。这样,用户在进行文本编辑时,不仅可以直接快速的选定文本中的编辑对象,无需复杂文本选中操作,用户还可以通过语音录入直接实现对编辑对象的编辑,简化了文本编辑过程。但是目前的接收语音数据后直接执行操作,不对语音任何处理,在一些远场以及噪音干扰比较强的情况下,语音识别***的性能不够理想,导致文本编辑不准确。
发明内容
为了解决上述现有技术中的不足,本发明的目的在于提供一种基于前馈序列记忆神经网络的文本编辑方法,采用基于改进的前馈序列记忆神经网络进行语音识别,文本编辑更准确高效。
为了解决上述技术问题,本发明采用如下技术方案:
一方面,本发明提供了一种基于前馈序列记忆神经网络的文本编辑方法,具体步骤为:
S1:获取待编辑的原始文本;
S2:接收编辑语音数据;
S3:对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
S4:对所述编辑命令进行语义理解,执行所述编辑命令。
进一步优选的,所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层,将记忆模块装备在所述线性投影层上,在相邻所述记忆模块添加跳转连接,从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块。
进一步优选的,所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达。
进一步优选的,所述记忆模块的操作采用基于标量或者矢量的编码。
进一步优选的,所述记忆模块的编码引入步幅因子。
另一方面,本发明还提供了一种基于前馈序列记忆神经网络的文本编辑***,包括:
采集单元,配置用获取待编辑的原始文本;
接收单元;配置用于接收编辑语音数据;
识别单元,配置用于对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
输出单元,配置用于对所述编辑命令进行语义理解,执行所述编辑命令,输出编辑文本。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于前馈序列记忆神经网络的文本编辑方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于前馈序列记忆神经网络的文本编辑。
与现有技术相比,本发明的有益效果为:
本发明示例的一种基于前馈序列记忆神经网络的文本编辑方法,获取待编辑的原始文本并接收用户录入的语音数据,再根据语音数据对编辑对象执行相应的编辑操作即可,这样,用户在进行文本编辑时,不仅可以直接快速的选定文本中的编辑对象,无需复杂文本选中操作,用户还可以通过语音录入直接实现对编辑对象的编辑,简化了文本编辑过程。另外,对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,文本编辑更准确高效。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一个实施例的流程示意图;
图2为改进的前馈序列记忆神经网络的结构框图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明的一个实施例提供了一种基于前馈序列记忆神经网络的文本编辑方法,具体步骤为:
S1:获取待编辑的原始文本;
S2:接收编辑语音数据;
S3:对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
S4:对所述编辑命令进行语义理解,执行所述编辑命令。
所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层,将记忆模块装备在所述线性投影层上,在相邻所述记忆模块添加跳转连接,从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块。
所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达。
所述记忆模块的操作采用基于标量或者矢量的编码。
所述记忆模块的编码引入步幅因子,具体的计算公式如下:
Figure BDA0002085781230000032
其中
Figure BDA0002085781230000033
代表前一个cFSMN-layer层的记忆模块的输出,s1和s2分别代表回看和向
未来看的步幅。如果s1=2则表示对历史编码时每个一个时刻取一个输入。这样在相同
的阶数情况下,就可以看到更远的历史,从而可以更加有效的对长时相关性进行建模。
本实施例改进的前馈序列记忆神经网络(cFSMN)与现有的Sigmoid-DNN、LSTM、BLSTM、sFSMN和vFSMN的语音识别***在SWB数据库上的性能以及模型参数量和每次迭代的训练时间对比,见表1:
表1:语音识别***在SWB数据库上的性能以及模型参数量和每次迭代的训练时间
Figure BDA0002085781230000031
Figure BDA0002085781230000041
实验结果表明,那些可以有效对长时相关进行建模的模型,例如LSTM和FSMN,可以取得DNN显著的性能提升。LSTM—次迭代需要9.5个小时,而BLSTM则需要23.2个小时。这是因为NVIDIA Tesla K20GPU内存只有3GB,从而基于BPTT训练的BLSTM只能采用16句话并行,而LSTM则可以采用64句话并行。所提出来的vFSMN相比于BLSTM可以获得少量的性能提升。vFSMN的模型结构更加简单,训练速度也更加迅速,一次迭代的vFSMN训练大致需要6.9小时,相比于BLSTM可以获得3倍的训练加速。但是vFSMN的模型参数却比BLSTM多。进一步的,提出的cFSMN可以将模型总的参数减少到74MB,相比于BLSTM,可以将参数量减少60%。更加重要的是,每次迭代只需要3.0小时,相比于BLSTM可以获得大致7倍的训练加速。而且基于cFSMN的模型可以获得12.5%的词错误率,相比于BLSTM可以获得0.9%个点的绝对性能提升。
改进的前馈序列记忆神经网络表示为216-N×[2048-P(N1,N2)]-M×2048-P-8911,其中N和M分别代表cFSMN-layer和标准全连接层的数目。P是低秩线性投影层的节点数目。N1,N2分别代表回看和前看的滤波器阶数。不同配置的采用改进的前馈序列记忆神经网络(cFSMN)声学模型在FSH任务的性能测试见表2:
表2:不同配置的采用快捷连接训练深层的cFSMN声学模型在FSH任务的性能
Figure BDA0002085781230000042
实验结果:exp1和exp2的结果表明了采用如公式(1)的记忆模块编码公式,通过设置大的步幅,可以看到更远的上下文信息,从而可以获得更好的性能。从exp2到exp6,逐渐增加cFSMN-layer的数目,模型性能逐渐提升。最终通过添加跳转连接,可以成功训练一个包含12个cFSMN-layer和2个全连接层的深层cFSMN,标记为Deep-cFSMN,在Hub5e00测试集上获得9.3%的词错误率。
另一方面,本发明还提供了一种基于前馈序列记忆神经网络的文本编辑***,包括:
采集单元,配置用获取待编辑的原始文本;
接收单元;配置用于接收编辑语音数据;
识别单元,配置用于对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
输出单元,配置用于对所述编辑命令进行语义理解,执行所述编辑命令,输出编辑文本。
另一方面,本发明还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行本发明示例的任一种基于前馈序列记忆神经网络的文本编辑方法。
另一方面,本发明还提供了一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现本发明示例的任一种基于前馈序列记忆神经网络的文本编辑。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。

Claims (5)

1.一种基于前馈序列记忆神经网络的文本编辑方法,其特征在于:具体步骤为:
S1:获取待编辑的原始文本;
S2:接收编辑语音数据;
S3:对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
S4:对所述编辑命令进行语义理解,执行所述编辑命令;
所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层,将记忆模块装备在所述线性投影层上,在相邻所述记忆模块添加跳转连接,从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块;
所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达;
所述记忆模块的操作采用基于标量或者矢量的编码。
2.据权利要求1所述的基于前馈序列记忆神经网络的文本编辑方法,其特征在于:所述记忆模块的编码引入步幅因子。
3.一种基于前馈序列记忆神经网络的文本编辑***,包括:
采集单元,配置用获取待编辑的原始文本;
接收单元;配置用于接收编辑语音数据;
识别单元,配置用于对所述编辑语音数据采用基于改进的前馈序列记忆神经网络进行语音识别,得到编辑命令;
输出单元,配置用于对所述编辑命令进行语义理解,执行所述编辑命令,输出编辑文本;
所述改进的前馈序列记忆神经网络是在前馈全连接神经网络的隐层之间***低维度的线性投影层,将记忆模块装备在所述线性投影层上,在相邻所述记忆模块添加跳转连接,从而使得低层记忆模块的输出可以直接累和添加到高层记忆模块;
所述记忆模块是抽头延迟结构将当前时刻及之前时刻的隐层输出通过一组系数编码得到一个固定的表达;
所述记忆模块的操作采用基于标量或者矢量的编码。
4.一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1-2任一所述的一种基于前馈序列记忆神经网络的文本编辑方法。
5.一种存储有计算机程序的计算机可读存储介质,该程序被处理器执行时实现权利要求1-2任一所述的一种基于前馈序列记忆神经网络的文本编辑方法。
CN201910487145.1A 2019-06-05 2019-06-05 一种基于前馈序列记忆神经网络的文本编辑方法及*** Active CN110377889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910487145.1A CN110377889B (zh) 2019-06-05 2019-06-05 一种基于前馈序列记忆神经网络的文本编辑方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910487145.1A CN110377889B (zh) 2019-06-05 2019-06-05 一种基于前馈序列记忆神经网络的文本编辑方法及***

Publications (2)

Publication Number Publication Date
CN110377889A CN110377889A (zh) 2019-10-25
CN110377889B true CN110377889B (zh) 2023-06-20

Family

ID=68249843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910487145.1A Active CN110377889B (zh) 2019-06-05 2019-06-05 一种基于前馈序列记忆神经网络的文本编辑方法及***

Country Status (1)

Country Link
CN (1) CN110377889B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN106919977A (zh) * 2015-12-25 2017-07-04 科大讯飞股份有限公司 一种前馈序列记忆神经网络及其构建方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101688A1 (zh) * 2014-12-25 2016-06-30 清华大学 一种基于深度长短期记忆循环神经网络的连续语音识别方法
CN106919977A (zh) * 2015-12-25 2017-07-04 科大讯飞股份有限公司 一种前馈序列记忆神经网络及其构建方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于时域建模的自动语音识别;王海坤等;《计算机工程与应用》;20171015(第20期);全文 *

Also Published As

Publication number Publication date
CN110377889A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
Wang et al. An overview of image caption generation methods
US10395118B2 (en) Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
CN112185352B (zh) 语音识别方法、装置及电子设备
US11321535B2 (en) Hierarchical annotation of dialog acts
CN108735202A (zh) 用于小占用资源关键词检索的卷积递归神经网络
CN110166650B (zh) 视频集的生成方法及装置、计算机设备与可读介质
CN110287461A (zh) 文本转换方法、装置及存储介质
CN103377651B (zh) 语音自动合成装置及方法
CN104199825A (zh) 一种信息查询方法和***
CN108388597A (zh) 会议摘要生成方法以及装置
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111048065B (zh) 文本纠错数据生成方法及相关装置
CN110377889B (zh) 一种基于前馈序列记忆神经网络的文本编辑方法及***
CN108962228A (zh) 模型训练方法和装置
CN116645956A (zh) 语音合成方法、语音合成***、电子设备及存储介质
CN116662482A (zh) 多模态情感分析方法、装置及电子设备
CN116959418A (zh) 一种音频处理方法及装置
CN109147773B (zh) 一种语音识别装置和方法
GB2555945A (en) Hierarchical annotation of dialog acts
CN109739970A (zh) 信息处理方法及装置、以及电子设备
CN109829035A (zh) 流程搜索方法、装置、计算机设备和存储介质
US11955120B1 (en) Systems and methods for integrating voice controls into applications
Farsi et al. Modifying voice activity detection in low SNR by correction factors
CN117952171A (zh) 模型生成方法、图像生成方法、装置以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant