CN116434753A - 一种文本顺滑方法、设备及存储介质 - Google Patents
一种文本顺滑方法、设备及存储介质 Download PDFInfo
- Publication number
- CN116434753A CN116434753A CN202310682675.8A CN202310682675A CN116434753A CN 116434753 A CN116434753 A CN 116434753A CN 202310682675 A CN202310682675 A CN 202310682675A CN 116434753 A CN116434753 A CN 116434753A
- Authority
- CN
- China
- Prior art keywords
- text
- smooth
- result
- smoothing
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009499 grossing Methods 0.000 title claims abstract description 118
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000012360 testing method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000004458 analytical method Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims description 55
- 238000012545 processing Methods 0.000 claims description 46
- 230000004927 fusion Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 26
- 239000010410 layer Substances 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000003780 insertion Methods 0.000 description 5
- 230000037431 insertion Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 4
- 230000005012 migration Effects 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 101100408787 Arabidopsis thaliana PNSL1 gene Proteins 0.000 description 1
- 101100191225 Arabidopsis thaliana PPL1 gene Proteins 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 239000012792 core layer Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种文本顺滑方法、设备及存储介质,通过对音频进行语音识别,获得待处理文本;将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的;根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。本申请基于迭代更新加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,增大训练数据,提高了文本顺滑模型的性能,提高了文本顺滑的效果。
Description
技术领域
本申请涉及语音处理技术领域,尤其涉及一种文本顺滑方法、设备及存储介质。
背景技术
自动语音识别技术(Automatic Speech Recognition),是一种将语音转换为文本的技术,以方便用户快速浏览和理解记录的信息。然而,由用户输入的音频转换成的文本,通常是口语化程度很高的文本,有非常多的语气词和重复词存在,影响转录出来的文本观感,为此需要对文本进行顺滑处理,以增加文本的可读性,提升用户的体验。
通常通过制定一系列顺滑标准,通过分词、正则等规则,完成无用词的删除,获得顺滑的文本。由于其需要基于制定的固定规则完成对无用词的删除,而规则的覆盖范围有限,缺乏泛化性,导致其有文本顺滑的效果受限的问题。
发明内容
本申请提供的一种文本顺滑方法、设备及存储介质,目的在于解决语音文本转换过程中文本顺滑的效果受限的问题。
为达到上述目的,本申请采用如下技术方案:
第一方面:本申请实施例提供一种文本顺滑方法,通过对音频进行语音识别,获得待处理文本;将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的;根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
本申请基于文本顺滑模型对待处理文本进行标签预测,在多轮迭代训练获得该文本顺滑模型的过程中,利用主动学习的思想,根据预测标签与真实标签的偏差,迭代更新加噪规则;基于迭代更新的加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,扩充数据丰富性,增大训练数据,提高了文本顺滑模型的性能,进而提高了语音文本的顺滑效果。
在一种可能的实现方式中,将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果之后,还包括:对待处理文本进行分词处理,获得分词文本;根据规则引擎中用于删除文本中无用字符的规则,对分词文本进行顺滑处理,获得第二顺滑结果;将第一顺滑结果与第二顺滑结果结合,获得第三顺滑结果;其中,根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本,包括:根据待处理文本对应的原始的文本困惑度与第三顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。本申请中基于用于删除文本中无用字符的规则对分词文本进行顺滑处理,得到第二顺滑结果,将第二顺滑结果与第一顺滑结果相结合,进一步提高文本顺滑效果。
在一种可能的实现方式中,将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,包括:对待处理文本进行分句处理,获得分句文本;将分句文本输入文本顺滑模型进行标签预测,得到第一顺滑结果。
在一种可能的实现方式中,根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本之后,还包括:对分句文本进行分词处理,获得分句文本对应的分词文本;根据规则引擎中用于删除文本中无用字符的规则,对分句文本对应的分词文本进行顺滑处理,获得分句文本对应的第二顺滑结果;将分句文本对应的第二顺滑结果与第一顺滑结果结合,获得分句文本对应的第三顺滑结果;其中,根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本,包括:根据待处理文本对应的原始的文本困惑度与分句文本对应的第三顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
由于待处理文本过长可能会影响文本顺滑的效率以及效果,本申请实施例中在获得待处理文本后,对待处理文本进行分句处理。即,将待处理文本分为若干个分句文本。在此基础上,对各个分句文本进行顺滑处理,进一步提高文本顺滑的效果。
在一种可能的实现方式中,规则引擎中用于删除文本中无用字符的规则包括删除分词文本中的重复词,删除分词文本中的语气词和恢复特殊词,根据规则引擎中用于删除文本中无用字符的规则,对分词文本进行顺滑处理,获得第二顺滑结果,包括:根据删除分词文本中的重复词和删除分词文本中的语气词,删除分词文本中的重复词和/或语气词,获得第二顺滑结果;将第一顺滑结果与第二顺滑结果结合,获得第三顺滑结果,包括:将第一顺滑结果与第二顺滑结果结合,获得子顺滑结果;根据恢复特殊词,恢复子顺滑结果中的特殊词,获得第三顺滑结果。
在一种可能的实现方式中,文本顺滑模型的训练步骤包括:对样本数据进行加噪,获得训练集和测试集;对训练集中的加噪文本进行特征提取,获得加噪文本对应的特征矩阵;对特征矩阵进行解码预测,获得输出标签;根据输出标签与真实标签之间的加权交叉熵损失值对文本顺滑初始模型进行迭代训练,得到中间版的文本顺滑模型;将测试集输入中间版的文本顺滑模型,获得预测标签;基于对预测标签与真实标签进行偏差分析,获得的第一偏差分析结果,迭代更新预设加噪规则,获得迭代更新的加噪规则;根据迭代更新的加噪规则,对样本数据进行加噪,获得更新后的训练集;基于更新后的训练集,对中间版的文本顺滑模型进行迭代训练,获得文本顺滑模型。本申请基于迭代更新的加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,扩充数据丰富性,增大训练数据,提高了文本顺滑模型的性能,进而提高了语音文本的顺滑效果。
在一种可能的实现方式中,基于更新后的训练集,对中间版的文本顺滑模型进行迭代训练,获得文本顺滑模型,包括:基于更新后的训练集,对中间版的文本顺滑模型进行迭代训练,获得训练后的文本顺滑模型;将测试集与场景测试集结合,获得融合场景的测试集,将样本数据与场景训练集结合,获得融合场景的样本数据;将融合场景的测试集输入训练后的文本顺滑模型,获得测试标签;基于对测试标签与真实标签进行偏差分析,获得的第二偏差分析结果,扩充迭代更新的加噪规则,获得扩充后的加噪规则;根据扩充后的加噪规则,对融合场景的样本数据进行加噪,获得融合场景的训练集;基于融合场景的训练集,对训练后的文本顺滑模型进行训练,获得文本顺滑模型。本申请基于样本数据和场景数据对训练后的文本顺滑模型进行训练,实现领域迁移微调。
在一种可能的实现方式中,将测试集与场景测试集结合,获得融合场景的测试集,将样本数据与场景训练集结合,获得融合场景的样本数据之前,还包括:对场景数据进行语音识别,获得场景数据对应的场景文本;对场景文本进行标注,获得场景测试集和场景训练集。
第二方面:本申请实施例提供一种电子设备,电子设备包括处理器以及存储器:存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行如上述第一方面所述的一种文本顺滑方法的步骤。
第三方面:本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述第一方面所述的一种文本顺滑方法的步骤。
附图说明
图1为本申请实施例提供的一种语音文本转换的场景示意图;
图2为本申请实施例提供的一种文本标注的示意图;
图3为本申请实施例提供的一种文本顺滑方法的流程图;
图4为本申请实施例提供的分词处理获得分词文本的示意图;
图5为本申请实施例提供的中间版的文本顺滑模型训练过程的流程图;
图6为本申请实施例提供的文本顺滑模型训练过程的流程图;
图7为本申请实施例提供的另一种文本顺滑方法的流程图;
图8为本申请实施例提供的一种电子设备的结构示意图;
图9为本申请实施例的电子设备的软件结构框图。
具体实施方式
本申请说明书和权利要求书及附图说明中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于限定特定顺序。
在本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
文本顺滑方法,其目标是识别并删除由对音频进行语音识别得到的待处理文本中所包含的重复、停顿、修正、冗余等口语现象,进而使口语化的待识别文本更加书面化、规范化,增加文本的可读性和可理解性,提高用户的体验。
目前,文本顺滑方法主要可以分为有监督的文本顺滑方法和无监督或自监督的文本顺滑方法两类,下面对这两类文本顺滑方法进行简要介绍。
第一类:有监督的文本顺滑方法,其中主要包括基于纯规则的文本顺滑方法和基于深度模型的文本顺滑方法。
基于纯规则的文本顺滑方法,通过制定一系列顺滑标准,根据分词、正则等规则,删除无用词,获得顺滑的文本。然而基于纯规则的文本顺滑方法中,规则覆盖范围有限,无泛化性,同时规则难以制定,需要通过大量的语料分析,以制定规则范围,影响文本顺滑效果。
基于有监督的深度模型的文本顺滑方法,需要通过大量标注预料,转换为序列标注任务,完成标签预测,删除无用词。该方法中存在标注语料难以获取,标注工作量大的问题。同时,在相较于正常词,待删除的无用词分布较少的情况下,容易出现训练数据分布稀疏的问题,从而降低文本顺滑的效果。
第二类:无监督或自监督的文本顺滑方法,其中主要包括基于无监督或自监督的深度模型的文本顺滑方法。与有监督的文本顺滑方法不同,自监督的文本顺滑方法可以利用数据本身的结构来进行学习,无需基于大量的标注数据来训练模型,其通常基于语料泛化,进行无监督或自监督的序列标注,进而实现文本顺滑。然而,语料的泛化以及生成,需要通过复杂的算法设计,才能匹配复杂场景的数据分布,同时生成的语料质量不可控,从而影响文本顺滑的效果。
基于此,为了使由音频转换的文本更加顺滑,提高文本的可读性,提升用户体验,本申请将经过语音识别后的待处理文本输入文本顺滑模型,得到第一顺滑结果,根据待处理文本对应的原始的文本困惑度与第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。该文本顺滑模型采用样本数据进行初始训练,文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,其中,预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的。由于在多轮迭代训练的过程中,利用主动学习的思想,根据预测标签与真实标签的偏差,迭代更新加噪规则;基于迭代更新的加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,扩充数据丰富性,增大训练数据,提高了文本顺滑模型的性能,进而提高了语音文本的顺滑效果。
本申请提供的方法可应用于各种支持语音文本转换的电子设备中,该电子设备包括但不限于手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、手持计算机、上网本、个人数字助理(PersonalDigital Assistant,PDA)、可穿戴电子设备等,本申请对上述电子设备的具体形式不做特殊限制。
下面以手机中笔记应用的语音文本转换功能为例,结合图1和图2介绍本申请提供的文本顺滑方法的应用场景。
如图1所示,该图为本申请实施例提供的一种语音文本转换的场景示意图。用户在手机的用户界面上点击笔记应用,进入笔记应用的界面,长按话筒按键,同时输入语音。如图所示,用户输入的语音为“然后啊就是这个这个手机的性价比非常高”。手机对用户输入的语音进行语音识别后,会得到具有语气词、重复词的非顺滑文本,基于本申请提供的文本顺滑方法对该非顺滑文本进行顺滑处理,得到顺滑文本并输出。则用户输入语音后,在笔记应用的用户界面上可以看到顺滑处理后的顺滑文本,即笔记应用的用户界面上会显示“然后就是这个手机的性价比非常高”的字样。
如图2所示,该图为本申请实施例提供的一种文本标注的示意图。由用户输入的音频直接转换的非顺滑文本为“然后啊就是这个这个手机的性价比非常高”,图中“O”和“D”为标签,用于表示对应的字符为保留字或无用字,其中,“O”对应的字符为保留字符,需要保留;“D”对应的字符为无用字符,即需要被删除的字符。通常情况下,语气词以及重复词为无用词,对于语气词需要直接删除,对于重复词则需要删除重复的部分,保留其中的一个词即可。如图中的“啊”为语气词,需要被删除;“这个这个”为重复词,需要删除一个“这个”。基于本申请提供的本文顺滑方法对该非顺滑文本进行顺滑处理,得到顺滑文本“然后就是这个手机的性价比非常高”,由此可以增加文本的可读性,减少用户的人为修改,提高用户的体验。
实施例一:
本申请提供的本文顺滑方法,如图3所示,该图为本申请实施例提供的一种文本顺滑方法的流程图。
S301、电子设备接收到用户输入的音频。
S302、电子设备接收到用户输入的音频后,基于自动语音识别(ASR)技术对音频进行语音识别,获得待处理文本。
其中,待处理文本为由音频直接转换成的文本,由于用户的口语习惯,待处理文本通常是较为口语化的文本,待处理文本中可能包含语气词、重复词等影响文本顺滑度的字词。
S303、电子设备将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果。
S304、将待处理文本输入文本顺滑模型进行标签预测的同时,电子设备还对待处理文本进行分词处理,获得分词文本。
示例性的,如图4所示,该图为本申请实施例提供的分词处理获得分词文本的示意图。如图所示,待处理文本为“然后啊就是这个这个手机性价比非常高”,对该待处理的文本进行分词处理,可以获得分词文本。在该分词文本中区分出了若干词组,如“然后”、“啊”、“就是”、“这个”、“这个”、“手机”、“性价比”以及“非常高”。
S305、在获得分词文本后,电子设备基于规则引擎的规则,对分词文本进行顺滑处理,得到第二顺滑结果。
其中,规则引擎(Rule Engine),由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策。接受数据输入,解释业务规则,并根据业务规则做出业务决策。本申请实施例中,引入规则引擎,能够一定程度上简化***架构,优化应用,提高***的可维护性。同时由于规则引擎的规则可以灵活更改,而不用重写编写代码,可以减少编写硬代码业务规则的成本和风险。规则引擎的规则具体为用于删除文本中无用字符的规则。
示例性的,规则引擎中用于删除文本中无用字符的规则可以包括:
1.删除分词文本中的重复词,即,当分词文本中具有连续重复词时,对重复词进行删除,仅保留一个,如图4中的“这个这个”即为连续重复词,对重复测进行删除,仅保留一个之后,可以由文本“这个这个”得到文本“这个”。
2.删除分词文本中的语气词,即,预先设置大范围语气词黑名单,若遇到黑名单内的语气词则将其删除,例如黑名单中包括“啊”、“额”、“呃”等语气词,对于图4中的分词文本,当检测到语气词“啊”时,会将其删除。
3.恢复特殊词,即,设置特殊词白名单,对白名单中的特殊词进行过滤,设定为不删除,例如“努尔哈赤”等特殊词,其中“哈”字有可能会被确定为无用词而被删除,将“努尔哈赤”列入特殊词白名单以使其中的“哈”字不被删除。
S306、在获得第一顺滑结果和第二顺滑结果后,可以将第一顺滑结果与第二顺滑结果进行结合,获得第三顺滑结果。
示例性的,以上述三种规则为例,删除分词文本中的重复词,获得第一子文本,删除分词文本中的包含的黑名单中的语气词,获得第二子文本,基于文本顺滑模型得到的第二顺滑结果为第三子文本。将第一子文本,第二子文本以及第三子文本结合得到的子顺滑结果,相当于在模型输出的第二顺滑结果的基础上检查其中是否有未删除的重复词,和/或未删除的黑名单中的语气词。在此基础上,为了进一步提高文本顺滑的准确性,基于特殊词白名单,对将第一子文本,第二子文本以及第三子文本结合得到的子顺滑结果,进行恢复,得到第三顺滑结果。由此,保护特殊词白名单中的特殊词不被误删,提高文本顺滑效果。
具体地,本申请实施例在多次迭代训练以获得该文本顺滑模型的过程中,利用了主动学习的思想,迭代更新加噪规则;基于迭代更新的加噪规则,对样本数据进行加噪,扩充了训练数据的丰富性,提高了模型的性能,进而提高了语音文本的顺滑效果。
如图5所示,该图为本申请实施例提供的中间版的文本顺滑模型训练过程的流程图。
首先,基于样本数据进行初始训练,获得中间版的文本顺滑模型。其中,样本数据可以采用开源数据,开源数据是指合法地从公开和可公开渠道获得的资源中收集的数据。简单来说,开源数据是任何人都可以访问、修改、重复使用和共享的数据。其具有海量化、碎片化等鲜明特征,开源数据体量巨大,为训练文本顺滑模型提供了大量的数据来源。
下面以开源数据为例进行说明。为了提高文本顺滑效果,用于训练的开源数据,其本身需为顺滑文本。示例性的,由于新闻类数据通常较为规范,可以采用新闻类数据来进行初始训练,以获得中间版的文本顺滑模型。
具体地,基于预设加噪规则,对样本数据进行加噪处理,获得测试集和训练集。具体地,将样本数据和预设加噪规则输入加载器生成监督数据,其中,监督数据包括测试集和训练集,测试集和训练集中包含加噪文本,该加噪文本为加噪后的样本数据,测试集在第一次生成后固定。在初始训练过程中,可以预先规定一些预设加噪规则。
示例性的,预设加噪规则至少可以包括以下五种:
对样本数据进行分词后,随机选取索引的位置,从语气词列表随机选择语气词,并随机***在当前索引的位置;对样本数据进行分词后,随机选取索引的位置,选择当前索引的位置对应的词组,随机重复1-3次,并***当前索引的位置,示例性的,如对于文本“我感觉很好”,选择“感觉”对应的索引的位置,随机重复两次“感觉”,则得到原始加噪文本“我感觉感觉感觉很好”;对样本数据进行分词后,随机选择第一索引的位置,并选择当前词组,在此随机选取第二索引的位置,并在第二索引的位置***第一索引对应的词组;不分词,随机选取索引的位置,从语气词列表随机选择语气词,并***在当前索引的位置;不分词后,随机选取索引的位置,选择当前索引的位置对应的词组,随机重复1-3次,并***当前索引的位置,示例性的,如对于文本“我感觉很好”,选择“感”字对应的索引的位置,随机重复两次“感”,则得到原始加噪文本“我感感感觉很好”。
在得到训练集后,对训练集中的加噪文本,进行基于Token级别的序列标注,即对训练集中的加噪文本进行特征提取,得到加噪文本对应的特征矩阵。其中,Token为一个最小的语义单元,通常情况下,一个中文汉字对应被视为一个Token。
示例性的,来自变换器的双向编码器表征量(Bidirectional EncoderRepresentations From Transformers,BERT)模型,使用预训练和微调的方式来完成自然语言处理(Natural Language Processing,NLP)任务,这些任务包括问答***、情感分析和语言推理等。一种轻量版本的来自变换器的双向编码器表征量(A Lite BERT,ALBERT)模型是一种轻量版本的BERT模型,相比于BERT模型,其利用更好的参数来训练模型,核心思想是采用了两种减少模型参数的方法,比BERT占用更少的内存空间,同时极大提升了训练速度,在效果上也有很大的提升。
本申请中可以采用ALBERT模型作为编码器(encoder)对原始文本进行特征提取,以“然后啊就是这个手机性价比非常高”为加噪文本,采用ALBERT模型作为编码器对其进行特征提取后,可以得到由15个特征向量组成的特征矩阵[e1e2e3e4e5e6e7e8e9e10e11e12e13e14e15]。特征矩阵中的每个特征向量对应一个字。例如e1对应“然”,e2对应“后”,以此类推。
将加噪文本对应的特征矩阵输入前馈神经网络(FFN),由该前馈神经网络作为解码器,对编码器提取的特征矩阵进行解码预测,获得每个特征向量对应的输出标签。其中输出标签的范围为{O,D},O表示保留当前字符,D表示删除当前字符。例如,上述加噪文本中的“然”、“后”对应的标签为O,而语气词“啊”对应的标签为“D”。
根据输出标签与真实标签之间的加权交叉熵损失值对文本顺滑初始模型进行迭代训练,得到中间版的文本顺滑模型。具体地,在训练过程的拟合目标由输出标签和真实标签之间的加权交叉熵损失函数(Weighted-Cross Entropy Loss)定义,其中,加权交叉熵损失函数可以由式(1)表示如下:L=-(W1*ylog(p)+W2*(1-y)log(1-p))(1)
其中,L表示输出标签和真实标签之间的加权交叉熵损失值;p表示特征向量对应的输出标签为“D”的概率,即表示特征向量对应的输出标签为无用字符的概率;y表示该特征向量对应的真实标签,若真实标签为“D”,则y=1;若真实标签为“O”,则y=0;W1和W2分别表示输出标签为“D”的字符对应的权重,和输出标签为“O”的字符对应的权重,示例性的,W1预设为1.5,W2预设为0.2,加权是为了让文本顺滑模型更加关注输出标签为“D”的字符,由此可以克服由于训练数据稀疏导致的文本顺滑效果差的问题,使得在相较于正常的待保留字符,待删的无用字符分布较少的情况下,不影响文本顺滑的效果。
在完成每一轮数据训练后,基于预设加噪规则,对样本数据进行新一轮的加噪处理,由此每一轮的数据训练过程,都是基于同源数据生成的,同分布的不同加噪文本,来进行训练的,由此可以有效提升文本顺滑模型的泛化性。
在完成预设次数的训练后,示例性的,每次约20epoch后,模型趋于拟合,得到中间版的文本顺滑模型。其中,1epoch等于使用训练集中的全部加噪文本训练一次的过程。
将测试集输入中间版的文本顺滑模型,得到预测标签,将预测标签与真实标签进行偏差分析,获得的第一偏差分析结果,根据第一偏差分析结果,针对性的修改加噪规则,获得迭代更新的加噪规则。基于迭代更新的加噪规则对样本数据进行加噪,获得更新后的训练集和更新后的测试集,再基于上述的方法,对中间版的文本顺滑模型进行迭代训练,以获得文本顺滑模型。
在一种可能的实现方式中,可以在下一轮训练的过程中,针对加噪规则的类型,修改对应的比例。示例性的,在对预测标签和真实标签进行偏差分析的过程中发现,在原始文本的随机索引的位置***随机语气词,句首***语气词,以及随机索引的位置***重复字的情况下,预测标签与真实标签一致,但是对于在原始文本的随机索引的位置***重复词的情况下,重复词对应的预测标签与该重复词对应的真实标签存在偏差,则认为当前的文本顺滑模型在随机索引的位置***重复词的情况下,文本顺滑的效果不佳。由此,可以针对该类型的加噪规则,更新加噪规则。
例如,在对加噪文本进行加噪处理时,将在加噪文本的随机索引的位置***随机语气词,句首***语气词,以及随机索引的位置***重复字的比例均调为20%,而在原始文本的随机索引的位置***重复词的比例调为40%,由此可以使当前的文本顺滑模型加强对在原始加噪文本的随机索引的位置***重复词方面的训练,使其能够更好的识别重复词,提高预测标签的准确性。
在一种可能的实现方式中,可以在下一轮训练的过程中,可以针对加噪规则的类型,新增加噪规则,以获得迭代更新的加噪规则。示例性的,在对预测标签和真实标签进行偏差分析的过程中,发现当特定词作为句首时,测试标签和真实标签存在偏差,则在下一轮的训练过程中将在句首添加特定词作为新增的加噪规则。由此解决训练数据不足的问题,提升文本顺滑模型的泛化性。
示例性的,迭代更新的加噪规则中的除上述5类预设加噪规则外,还可以包括特定词作为句首、负例词作为句首、AAB形式分词(例如佼佼者等)***、AABAA形式***特定词、负例词随机***分词位置、语气词随机重复***以及特定语气词格式***(例如语气词+标点,标点+语气词+标点,标点+语气词)等。需要说明的是,上述加噪规则均为示例。
基于此,对中间版的文本顺滑模型进行迭代训练,训练时,基于迭代更新的加噪规则对样本数据进行加噪,而迭代更新的加噪规则是基于每轮训练的偏差分析结果,进行迭代更新修改的。由此通过自监督的方式解决了训练数据不足的问题,通过主动学习实现“专家知识”融合,针对文本顺滑模型拟合不足的数据分布,进行强化,有效提升了文本顺滑模型的性能,进而可以提高文本顺滑的效果。
在一种可能的实现方式中,为使文本顺滑模型适用于各种场景,基于所述更新后的训练集,对所述中间版的文本顺滑模型进行迭代训练,获得训练后的文本顺滑模型,训练后的文本顺滑模型趋于拟合,此时融合场景输入进行领域迁移微调,如图6所示,该图为本申请实施例提供的文本顺滑模型训练过程的流程图。
具体地,基于ASR技术,对场景数据进行语音识别,获得场景数据对应的场景文本。对该场景文本进行标注,得到该场景垂直领域下的场景训练集和场景测试集。
将场景训练集与样本数据进行结合,获得融合场景的样本数据。将场景测试集与测试集进行结合获得融合场景的测试集,将融合场景的测试集输入训练后的文本顺滑模型,进行标签预测,获得测试标签。对测试标签和真实标签进行偏差分析,获得第二偏差分析结果,进而基于该第二偏差分析结果,扩充所述迭代更新的加噪规则,获得扩充后的加噪规则。
基于该扩充后的加噪规则,对融合场景的样本数据进行加噪,生成融合场景的训练集。其中扩充后的加噪规则是在每轮训练中,基于对测试标签与真实标签进行偏差分析得到的第二偏差分析结果,进行迭代更新的,一方面可以实现领域迁移微调,一方面可以强化模型,使其具有针对性的进行训练,提升模型的性能,进而提高文本顺滑效果。
基于融合场景的训练集,重复上述训练过程,对训练后的文本顺滑模型进行迭代训练,在无新的偏差分析结果生成时,认为模型拟合,获得最终的文本顺滑模型。
本申请实施例中,将待处理文本输入最终的文本顺滑模型,获得第一顺滑结果。
S307、电子设备对将第一顺滑结果与基于规则引擎得到的第二顺滑结果相结合得到的第三顺滑结果进行困惑度计算,得到第三顺滑结果对应的文本困惑度。
S308、电子设备计算待处理文本的困惑度,得到原始的文本困惑度。
其中,文本困惑度(PPL),是用来评价语言模型性能的指标,本质上是计算句子的概率。示例性的,对于由字符W1~Wk(k为正整数)组成的句子S可以由式(2)表示如下:S=W1,W2,……,Wk(2)
句子S的概率可以由式(3)表示如下:P(S)=P(W1,W2,……,Wk)=P(W1)P(W2|W1)……P(Wk|W1,W2,……,Wk-1)(3)
困惑度的大小与句子的概率相关,句子的概率越大,困惑度越小,则句子越顺滑。
S309、判断第三顺滑结果对应的文本困惑度是否大于原始的文本困惑度。
示例性的,若待处理文本为:A1,A2,A3,A4,A5,A6,A7,A8,A9,A10。对于三个文本:A1,A2,A4,A5,A6,A7,A8,A9,A10;A1,A2,A3,A4,A5,A6,A7,A9,A10;A1,A2,A4,A5,A6,A7,A9,A10,其分别对应困惑度PPL1,困惑度PPL2以及困惑度PPL3,与待处理文本对应的原始的文本困惑度PPL0对比,选择PPL0-3中的最低值所对应的文本作为最终结果。
若第三顺滑结果对应的文本困惑度大于原始的文本困惑度,则执行步骤S310、恢复删除,输出待处理文本;若第三顺滑结果对应的文本困惑度小于或等于原始的文本困惑度,则执行步骤S311、输出删除后的文本,即输出第三顺滑结果对应的文本,将其作为最终的顺滑文本。
在一种可能的实现方式中,可以对第一顺滑结果进行困惑度计算,得到第一顺滑结果对应的文本困惑度。若第一顺滑结果对应的文本困惑度大于原始的文本困惑度,则恢复删除,输出待处理文本;若第一顺滑结果对应的文本困惑度小于或等于原始的文本困惑度,则输出删除后的文本,即输出第一顺滑结果对应的文本,将其作为最终的顺滑文本。
综上所述,本申请在多轮迭代训练得到文本顺滑模型的过程中,利用主动学习的思想,根据预测标签与真实标签的偏差,迭代更新加噪规则;基于迭代更新的加噪规则,对样本数据进行加噪,扩大了规则覆盖范围,扩充数据丰富性,增大训练数据,提高了文本顺滑模型的性能,进而提高了语音文本的顺滑效果。同时,基于样本数据和场景数据对训练后的文本顺滑模型进行训练,实现领域迁移微调。在此基础上,引入规则引擎,将文本顺滑模型与规则引擎向结合,通过语言模型的困惑度计算,进行最终结果的选择,进一步提升准确率,提高文本顺滑效果。
实施例二:
由于待处理文本过长可能会影响文本顺滑的效率以及效果,进而与上述实施例一不同的是,本申请实施例中在获得待处理文本后,需要对待处理文本进行分句处理。即,将待处理文本分为若干个分句文本。在此基础上,对各个分句文本进行顺滑处理,进一步提高文本顺滑的效果。下面结合图7对本申请实施例二进行介绍,该图为本申请实施例提供的另一种文本顺滑方法的流程图。与上述实施例一相同的部分,在此不再赘述。
S401、电子设备接收到用户输入的音频。
S402、电子设备对音频进行语音识别,获得待处理文本。
S403、电子设备对待处理文本进行分句处理,获得分句文本。其中分句文本可以由若干个分句组成,本申请中对分句处理方式不作具体限定,示例性的可以基于预设时长、预设字符数,以及停顿时长中的一项或多项来对待处理文本进行分句处理。
基于预设时长对待处理文本进行分句处理时,预设时长的整数倍为分割时刻点。若从起始时刻开始到音频结尾的时长小于预设时长,则该起始时刻到音频结尾为一个分句。示例性的,一段由时长为1分钟20秒的音频转换成的待处理文本,预设时长为30秒,则以30秒、60秒、90秒为分割时刻,可以将待处理文本分为3句,由前30秒的音频转换的文本为一个分句,由第31秒到第60秒的音频转换的文本为一个分句,第61秒到第90秒中,只包含20秒的有效音频,则由第60秒到第80秒的音频转换成的待处理文本为一个分句。其中预设时长,可以根据具体情况进行设置。
基于预设字符数对待处理文本进行分句处理时,以待处理文本中的第一个字符作为起始,预设字符数的整数倍为待处理文本的分割点。若从分割点到待处理文本结尾的总字符数小于预设字符数,则该分割点到待处理文本的结尾为一个分句。示例性的,一段字符数为80的待处理文本,预设字符数为30,则以30、60、90为分割点,可以将待处理文本分为3句,由前30个字符组成的文本为一个分句,由第31个字符到第60个字符组成的文本为一个分句,第61个字符到第80个字符组成的文本为一个分句。其中预设字符数,可以根据具体情况进行设置。
基于停顿时长对待处理文本进行分句处理时,当停顿时长超过阈值时,进行分句。其中阈值,可以根据具体情况进行设置。
本申请实施例中,可以基于上述一种方式获得分句文本,也可以将上述三种方式进行结合以获得分句文本。
S404、在获得分句文本后,针对分句文本中的每个分句进行分词处理,获得分词文本。
S405、电子设备基于规则引擎中用于删除文本中无用字符的规则,对分词文本进行顺滑处理,可以得到分句文本对应的第二顺滑结果。
S406、与进行分词处理,获得分词文本并行的,即与S403并行的,电子设备将分句文本输入文本顺滑模型,得到第一顺滑结果。
S407、电子设备将分句文本对应的第二顺滑结果与第一顺滑结果相结合,得到分句文本对应的第三顺滑结果。
与上述实施例一相同,本申请实施例中,S408、对分句文本对应的第三顺滑结果进行困惑度计算,得到分句文本对应的第三顺滑结果对应的文本困惑度。S409、计算待处理文本的困惑度,得到原始的文本困惑度。
S410、判断分句文本对应的第三顺滑结果对应的文本困惑度是否大于原始的文本困惑度。
若分句文本对应的第三顺滑结果对应的文本困惑度大于原始的文本困惑度,则执行S411、恢复删除,输出待处理文本;若分句文本对应的第三顺滑结果对应的文本困惑度小于或等于原始的文本困惑度,则执行S412、输出删除后的文本,即输出分句文本对应的第三顺滑结果对应的文本,将其作为最终的顺滑文本。
在一种可能的实现方式中,可以对第一顺滑结果进行困惑度计算,得到分句文本对应的第一顺滑结果对应的文本困惑度。若第一顺滑结果对应的文本困惑度大于原始的文本困惑度,则恢复删除,输出待处理文本;若第一顺滑结果对应的文本困惑度小于或等于原始的文本困惑度,则输出删除后的文本,即输出第一顺滑结果对应的文本,将其作为最终的顺滑文本。
综上所述,本申请实施例中的文本顺滑模型,在训练过程中基于迭代更新的加噪规则,对样本数据进行加噪,解决了训练数据不足的问题,提升了模型的泛化性,同时提升训练集和场景训练集的同分布性。在多轮迭代训练得到文本顺滑模型的过程中,根据预测标签与真实标签的偏差,迭代更新加噪规则,将自监督方式和主动学习的思想相结合,通过自监督的方式解决训练数据不足的问题,通过主动学习提升模型性能,针对模型拟合不足的数据分布,进行强化。同时,本申请实施例在实施例一的基础上,为避免待处理文本过长导致文本顺滑的效率以及效果下降,对待处理文本进行分句处理,对分句文本进行顺滑处理,得到顺滑文本进一步提高了文本顺滑的效率以及准确率。
在一些实施例中,电子设备的结构可以如图8所示,图8为本申请实施例提供的一种电子设备的结构示意图。
如图8所示,电子设备可以包括处理器110,外部存储器接口120,内部存储器121,音频模块130,麦克风130A,传感器模块140,显示屏150等。其中传感器模块140可以包括压力传感器140A,指纹传感器140B,触摸传感器140C等。
可以理解的是,本实施例示意的结构并不构成对电子设备的具体限定。在另一些实施例中,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。例如,在本申请中,处理器110对音频进行语音识别,获得待处理文本;将待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,所述文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,所述迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,所述预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的;根据所述待处理文本对应的原始的文本困惑度与所述第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
其中,控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了***的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I2C)接口,集成电路内置音频(inter-integrated circuitsound,I2S)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(serial data line,SDA)和一根串行时钟线(derail clock line,SCL)。在一些实施例中,处理器110可以通过I2C接口耦合触摸传感器140C,使处理器110与触摸传感器140C通过I2C总线接口通信,实现电子设备的触摸功能。例如在本申请实施例中,基于触摸功能,用户可以在笔记应用的用户界面中长按话筒按键,同时输入语音。
I2S接口可以用于音频通信。在一些实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块130耦合,实现处理器110与音频模块130之间的通信。在一些实施例中,音频模块130可以通过I2S接口向无线通信模块160传递音频信号。
可以理解的是,本实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备的结构限定。在本申请另一些实施例中,电子设备也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
电子设备通过GPU,显示屏150,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏150和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏150用于显示图像,视频等。显示屏150包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),有机发光二极管(organic light-emittingdiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的,AMOLED),柔性发光二极管(flex light-emittingdiode,FLED),Miniled,MicroLed,Micro-oled,量子点发光二极管(quantum dot lightemitting diodes,QLED)等。在一些实施例中,电子设备可以包括1个或N个显示屏150,N为大于1的正整数。
电子设备的显示屏150上可以显示一系列图形用户界面(graphical userinterface,GUI),这些GUI都是该电子设备的主屏幕。一般来说,电子设备的显示屏150的尺寸是固定的,只能在该电子设备的显示屏150中显示有限的控件。控件是一种GUI元素,它是一种软件组件,包含在应用程序中,控制着该应用程序处理的所有数据以及关于这些数据的交互操作,用户可以通过直接操作(direct manipulation)来与控件交互,从而对应用程序的有关信息进行读取或者编辑。一般而言,控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。示例性的,本申请实施例中,可以将顺滑文本显示在显示屏150上。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。示例性的,本申请实施例中,基于NPU,可以对音频进行语音识别,获得待处理文本。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令,从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作***,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备使用过程中所创建的数据(比如音频数据,电话本等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备的各种功能应用以及数据处理。
电子设备可以通过音频模块130,麦克风130A等实现音频功能。例如音乐播放,录音等。
音频模块130用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块130还可以用于对音频信号编码和解码。在一些实施例中,音频模块130可以设置于处理器110中,或将音频模块130的部分功能模块设置于处理器110中。
麦克风130A,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风130A发声,将声音信号输入到麦克风130A。电子设备可以设置至少一个麦克风130A。在另一些实施例中,电子设备可以设置两个麦克风130A,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备还可以设置三个,四个或更多麦克风130A,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。示例性的,本申请实施例中,可以通过麦克风130A采集音频,以得到待处理文本。
压力传感器140A用于感受压力信号,可以将压力信号转换成电信号。在一些实施例中,压力传感器140A可以设置于显示屏150。压力传感器140A的种类很多,如电阻式压力传感器,电感式压力传感器,电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器140A,电极之间的电容改变。电子设备根据电容的变化确定压力的强度。当有触摸操作作用于显示屏150,电子设备根据压力传感器140A检测所述触摸操作强度。电子设备也可以根据压力传感器140A的检测信号计算触摸的位置。在一些实施例中,作用于相同触摸位置,但不同触摸操作强度的触摸操作,可以对应不同的操作指令。
指纹传感器140B用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁,访问应用锁,指纹录音等。
触摸传感器140C,也称“触控器件”。触摸传感器140C可以设置于显示屏150,由触摸传感器140C与显示屏150组成触摸屏,也称“触控屏”。触摸传感器140C用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器,以确定触摸事件类型。可以通过显示屏150提供与触摸操作相关的视觉输出。在另一些实施例中,触摸传感器140C也可以设置于电子设备的表面,与显示屏150所处的位置不同。
另外,在上述部件之上,运行有操作***。例如苹果公司所开发的iOS操作***,谷歌公司所开发的Android开源操作***,微软公司所开发的Windows操作***等。在该操作***上可以安装运行应用程序。
电子设备的操作***可以采用分层架构,事件驱动架构,微核架构,微服务架构,或云架构。本申请实施例以分层架构的Android***为例,示例性说明电子设备的软件结构。
图9是本申请实施例的电子设备的软件结构框图。
分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中,将Android***分为四层,从上至下分别为应用程序层,应用程序框架层,安卓运行时(Android runtime)和***库,以及内核层。
应用程序层可以包括一系列应用程序包。如图9所示,应用程序包可以包括笔记,WLAN,蓝牙等应用程序。
应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。如图9所示,应用程序框架层可以包括窗口管理器,内容提供器,视图***,文本顺滑算法等。
窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。
内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。
视图***包括可视控件,例如显示文字的控件,显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。
文本顺滑算法用于对由音频转换的待处理文本进行文本顺滑处理,得到顺滑文本。Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。
核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
***库可以包括多个功能模块。例如:媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES)等。
媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如:MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。
三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。
内核层是硬件和软件之间的层。内核层至少包含显示驱动,摄像头驱动,音频驱动,传感器驱动。
需要说明的是,本申请实施例虽然以Android***为例进行说明,但是其基本原理同样适用于基于iOS、Windows等操作***的电子设备。
本实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中包括指令,当上述指令在电子设备上运行时,使得该电子设备执行上述相关方法步骤,以实现上述实施例中的方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种文本顺滑方法,其特征在于,包括:
对音频进行语音识别,获得待处理文本;
将所述待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,所述文本顺滑模型的训练集是由迭代更新的加噪规则对样本数据进行加噪得到的,所述迭代更新的加噪规则是基于对预测标签和真实标签进行偏差分析得到的,所述预测标签为训练过程中的文本顺滑模型对测试集进行标签预测得到的;
根据所述待处理文本对应的原始的文本困惑度与所述第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
2.根据权利要求1所述的方法,其特征在于,所述将所述待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果之后,还包括:
对所述待处理文本进行分词处理,获得分词文本;
根据规则引擎中用于删除文本中无用字符的规则,对所述分词文本进行顺滑处理,获得第二顺滑结果;
将所述第一顺滑结果与所述第二顺滑结果结合,获得第三顺滑结果;
其中,所述根据所述待处理文本对应的原始的文本困惑度与所述第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本,包括:
根据所述待处理文本对应的原始的文本困惑度与所述第三顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述待处理文本输入文本顺滑模型进行标签预测,得到第一顺滑结果,包括:
对所述待处理文本进行分句处理,获得分句文本;
将所述分句文本输入文本顺滑模型进行标签预测,得到所述第一顺滑结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述待处理文本对应的原始的文本困惑度与所述第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本之后,还包括:
对所述分句文本进行分词处理,获得分句文本对应的分词文本;
根据规则引擎中用于删除文本中无用字符的规则,对所述分句文本对应的分词文本进行顺滑处理,获得分句文本对应的第二顺滑结果;
将所述分句文本对应的第二顺滑结果与所述第一顺滑结果结合,获得分句文本对应的第三顺滑结果;
其中,所述根据所述待处理文本对应的原始的文本困惑度与所述第一顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本,包括:
根据所述待处理文本对应的原始的文本困惑度与所述分句文本对应的第三顺滑结果对应的文本困惑度,将低的困惑度对应的文本作为顺滑文本。
5.根据权利要求2所述的方法,其特征在于,所述规则引擎中用于删除文本中无用字符的规则包括删除分词文本中的重复词,删除分词文本中的语气词和恢复特殊词,所述根据规则引擎中用于删除文本中无用字符的规则,对所述分词文本进行顺滑处理,获得第二顺滑结果,包括:
根据所述删除分词文本中的重复词和所述删除分词文本中的语气词,删除分词文本中的重复词和/或语气词,获得第二顺滑结果;
所述将所述第一顺滑结果与所述第二顺滑结果结合,获得第三顺滑结果,包括:
将所述第一顺滑结果与所述第二顺滑结果结合,获得子顺滑结果;
根据所述恢复特殊词,恢复所述子顺滑结果中的特殊词,获得所述第三顺滑结果。
6.根据权利要求1所述的方法,其特征在于,所述文本顺滑模型的训练步骤包括:
对所述样本数据进行加噪,获得训练集和测试集;
对所述训练集中的加噪文本进行特征提取,获得加噪文本对应的特征矩阵;
对所述特征矩阵进行解码预测,获得输出标签;
根据所述输出标签与真实标签之间的加权交叉熵损失值对文本顺滑初始模型进行迭代训练,得到中间版的文本顺滑模型;
将所述测试集输入所述中间版的文本顺滑模型,获得预测标签;
基于对所述预测标签与所述真实标签进行偏差分析,获得的第一偏差分析结果,迭代更新预设加噪规则,获得迭代更新的加噪规则;
根据所述迭代更新的加噪规则,对所述样本数据进行加噪,获得更新后的训练集;
基于所述更新后的训练集,对所述中间版的文本顺滑模型进行迭代训练,获得所述文本顺滑模型。
7.根据权利要求6所述的方法,其特征在于,所述基于所述更新后的训练集,对所述中间版的文本顺滑模型进行迭代训练,获得所述文本顺滑模型,包括:
基于所述更新后的训练集,对所述中间版的文本顺滑模型进行迭代训练,获得训练后的文本顺滑模型;
将所述测试集与场景测试集结合,获得融合场景的测试集,将所述样本数据与场景训练集结合,获得融合场景的样本数据;
将所述融合场景的测试集输入所述训练后的文本顺滑模型,获得测试标签;
基于对所述测试标签与所述真实标签进行偏差分析,获得的第二偏差分析结果,扩充所述迭代更新的加噪规则,获得扩充后的加噪规则;
根据所述扩充后的加噪规则,对所述融合场景的样本数据进行加噪,获得融合场景的训练集;
基于所述融合场景的训练集,对所述训练后的文本顺滑模型进行训练,获得文本顺滑模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述测试集与场景测试集结合,获得融合场景的测试集,将所述样本数据与场景训练集结合,获得融合场景的样本数据之前,还包括:
对场景数据进行语音识别,获得场景数据对应的场景文本;
对所述场景文本进行标注,获得所述场景测试集和所述场景训练集。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如权利要求1-8任一项所述的一种文本顺滑方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的一种文本顺滑方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310682675.8A CN116434753B (zh) | 2023-06-09 | 2023-06-09 | 一种文本顺滑方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310682675.8A CN116434753B (zh) | 2023-06-09 | 2023-06-09 | 一种文本顺滑方法、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434753A true CN116434753A (zh) | 2023-07-14 |
CN116434753B CN116434753B (zh) | 2023-10-24 |
Family
ID=87081768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310682675.8A Active CN116434753B (zh) | 2023-06-09 | 2023-06-09 | 一种文本顺滑方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116434753B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111797895A (zh) * | 2020-05-30 | 2020-10-20 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、***以及设备 |
CN112163530A (zh) * | 2020-09-30 | 2021-01-01 | 江南大学 | 基于特征增强和样本选择的ssd小目标检测方法 |
CN113140221A (zh) * | 2021-04-27 | 2021-07-20 | 深圳前海微众银行股份有限公司 | 语言模型融合方法、设备、介质及计算机程序产品 |
CN114611492A (zh) * | 2022-03-17 | 2022-06-10 | 北京中科智加科技有限公司 | 一种文本顺滑方法、***和计算机设备 |
US20220245362A1 (en) * | 2021-01-29 | 2022-08-04 | Oracle International Corporation | Augmented training set or test set for improved classification model robustness |
-
2023
- 2023-06-09 CN CN202310682675.8A patent/CN116434753B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110853621A (zh) * | 2019-10-09 | 2020-02-28 | 科大讯飞股份有限公司 | 语音顺滑方法、装置、电子设备及计算机存储介质 |
CN111797895A (zh) * | 2020-05-30 | 2020-10-20 | 华为技术有限公司 | 一种分类器的训练方法、数据处理方法、***以及设备 |
CN112163530A (zh) * | 2020-09-30 | 2021-01-01 | 江南大学 | 基于特征增强和样本选择的ssd小目标检测方法 |
US20220245362A1 (en) * | 2021-01-29 | 2022-08-04 | Oracle International Corporation | Augmented training set or test set for improved classification model robustness |
CN113140221A (zh) * | 2021-04-27 | 2021-07-20 | 深圳前海微众银行股份有限公司 | 语言模型融合方法、设备、介质及计算机程序产品 |
CN114611492A (zh) * | 2022-03-17 | 2022-06-10 | 北京中科智加科技有限公司 | 一种文本顺滑方法、***和计算机设备 |
Non-Patent Citations (1)
Title |
---|
吴双志;张冬冬;周明;: "基于自注意力机制的口语文本顺滑算法", 智能计算机与应用, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN116434753B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110490213B (zh) | 图像识别方法、装置及存储介质 | |
CN111563144B (zh) | 基于语句前后关系预测的用户意图识别方法及装置 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN111985240B (zh) | 命名实体识别模型的训练方法、命名实体识别方法及装置 | |
CN112069309B (zh) | 信息获取方法、装置、计算机设备及存储介质 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
JP2017527926A (ja) | 社交的会話入力に対するコンピュータレスポンスの生成 | |
CN111414736B (zh) | 故事生成模型训练方法、装置、设备及存储介质 | |
WO2022253061A1 (zh) | 一种语音处理方法及相关设备 | |
CN104471639A (zh) | 语音和手势识别增强 | |
WO2021212601A1 (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
US20230034414A1 (en) | Dialogue processing apparatus, learning apparatus, dialogue processing method, learning method and program | |
WO2023207541A1 (zh) | 一种语音处理方法及相关设备 | |
CN111858898A (zh) | 基于人工智能的文本处理方法、装置及电子设备 | |
CN110634466A (zh) | 具有高感染力的tts处理技术 | |
WO2022156434A1 (zh) | 用于生成文本的方法和装置 | |
CN115631251B (zh) | 基于文本生成图像的方法、装置、电子设备和介质 | |
CN114091466A (zh) | 一种基于Transformer和多任务学习的多模态情感分析方法及*** | |
CN113761888A (zh) | 文本翻译方法、装置、计算机设备及存储介质 | |
CN116547681A (zh) | 用于持续演进内容的动态语言模型 | |
JP2024012152A (ja) | テキスト情報の中からターゲット単語と対応する単語を識別する方法(method for identify a word corresponding to a target word in text information) | |
WO2020214254A1 (en) | Layer trajectory long short-term memory with future context | |
CN111460231A (zh) | 电子设备以及电子设备的搜索方法、介质 | |
CN113591472B (zh) | 歌词生成方法、歌词生成模型训练方法、装置及电子设备 | |
CN113869324A (zh) | 一种基于多模态融合的视频常识性知识推理实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |