CN111435595A - 文本规整方法及装置 - Google Patents
文本规整方法及装置 Download PDFInfo
- Publication number
- CN111435595A CN111435595A CN201910023851.0A CN201910023851A CN111435595A CN 111435595 A CN111435595 A CN 111435595A CN 201910023851 A CN201910023851 A CN 201910023851A CN 111435595 A CN111435595 A CN 111435595A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- features
- voice
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 59
- 239000013598 vector Substances 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims description 28
- 230000015654 memory Effects 0.000 claims description 17
- 230000001360 synchronised effect Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 abstract description 7
- 238000013519 translation Methods 0.000 description 23
- 238000012545 processing Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000001105 regulatory effect Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 210000001061 forehead Anatomy 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种文本规整方法及装置,所述方法包括:获取语音数据及所述语音数据对应的识别文本;获取所述识别文本中的词单元及所述词单元对应的词向量;提取规整特征,具体包括从所述语音数据中提取语音特征,并从所述识别文本中提取文本特征;将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除;根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。利用本发明方案,可以使口语化的语音识别文本更具理解性及表达规范性。
Description
技术领域
本发明涉及文本处理领域,具体涉及一种文本规整方法及装置。
背景技术
同声传译,简称“同传”,是指在不打断讲话者的条件下,将讲话内容不间断的实时的翻译给听众。其最大的特点在于效率高,听众可以及时地获取信息,被广泛地应用于国际会议、外交谈判等重要场合。目前,随着人工智能技术的发展,出现了机器同传,机器同传最大的优势是不会因为疲倦而导致译出率下降。但由于机器同传受限于语音识别及机器翻译技术,目前机器同传的总体翻译质量与人工同传相比还有较大差距,尤其是在一些演讲场合,演讲者往往根据主题以及思路即兴演讲,演讲过程中会出现语义不完整、重复、语气词等口语化表达,这种现象会影响后续的翻译质量,甚至会导致翻译完全错误。针对这种情况,现有的机器同传产品通常采用基于规则的方法去除其中的一些口语化表达词,但效果不佳,进而会使后续机器同传的效果受到较大影响。
发明内容
本发明实施例提供一种文本规整方法及装置,以使语音识别文本更具理解性及表达规范性。
为此,本发明提供如下技术方案:
一种文本规整方法,所述方法包括:
获取语音数据及所述语音数据对应的识别文本;
获取所述识别文本中的词单元及所述词单元对应的词向量;
提取规整特征,具体包括从所述语音数据中提取语音特征,并从所述识别文本中提取文本特征;
将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除;
根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
可选地,所述文本特征包括以下任意一项或多项:词性特征、Ngram重复特征、临近词模糊匹配得分。
可选地,所述语音特征包括以下任意一项或多项:基频特征、停顿特征、能量特征。
可选地,所述根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的文本包括:
删除所述识别文本中标签为删除的词单元,得到规整后的文本。
可选地,在获取所述识别文本中的各词单元及所述词单元对应的词向量之前,所述方法还包括:
滤除所述识别文本中的语气词。
可选地,所述方法还包括:
获取与所述语音数据同步的说话人口型信息;
所述提取规整特征还包括:
从所述口型信息中提取口型特征。
一种文本规整装置,所述装置包括:
语音接收模块,用于获取语音数据;
识别文本获取模块,用于获取所述语音数据对应的识别文本;
词单元获取模块,用于获取所述识别文本中的各词单元及所述词单元对应的词向量;
特征提取模块,用于提取规整特征;所述特征提取模块包括:语音特征提取单元和文本特征提取单元;所述语音特征提取单元用于从所述语音数据中提取语音特征;所述文本特征提取单元用于从所述识别文本中提取文本特征;
判断模块,用于将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除;
规整模块,用于根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
可选地,所述文本特征包括以下任意一项或多项:词性特征、Ngram重复特征、临近词模糊匹配得分。
可选地,所述语音特征包括以下任意一项或多项:基频特征、停顿特征、能量特征。
可选地,所述规整模块,具体用于删除所述识别文本中标签为删除的词单元,得到规整后的文本。
可选地,所述装置还包括:
过滤模块,用于在所述词单元获取模块获取所述识别文本中的各词单元及所述词单元对应的词向量之前,滤除所述识别文本中的语气词。
可选地,所述装置还包括:
口型信息获取模块,用于获取与所述语音数据同步的说话人口型信息;
所述特征提取模块包括:
口型特征提取单元,用于从所述口型信息中提取口型特征。
一种电子设备,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现前面所述的方法。
一种可读存储介质,其上存储有指令,所述指令被执行以实现前面所述的方法。
本发明实施例提供的文本规整方法及装置,分别从说话人的当前语音数据及对应的识别文本中提取语音特征和文本特征,基于识别文本中的词向量、所述语音特征对应的特征向量和文本特征对应的特征向量,利用预先构建的文本规整模型,确定所述识别文本中词单元对应的标签,从而确定所述识别文本中需要删除的词单元,然后根据所述标签对所述识别文本进行规整,包括删除所述识别文本中标签为删除的词单元,得到规整后的语音识别文本。
进一步地,还可以获取与所述语音数据同步的说话人口型信息,并从中提取口型特征,将该口型特征与前述语音特征和文本特征一起作为对所述识别文本进行规整的规整特征,将所述识别文本中的词向量及所述规整特征对应的特征向量输入所述文本规整模型,根据所述文本规整模型的输出确定各词单元对应的标签,可以有效提高标签的准确性。
利用本发明方案,可以将语音识别得到的识别文本中出现的语义不完整词、重复词、语气词等口语化的词单元删除,得到去口语化的、规范化的文本,将该文本作为机器翻译的输入文本,可以大大提高机器翻译的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是本发明实施例中文本规整模型的一种拓扑结构示意图;
图2是本发明实施例文本规整方法的一种流程图;
图3是本发明实施例文本规整方法的另一种流程图;
图4是本发明实施例文本规整装置的一种结构框图;
图5是本发明实施例文本规整装置的另一种结构框图;
图6是根据一示例性实施例示出的一种用于输入方法的装置的框图;
图7是本发明实施例中服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
针对说话人语音中常出现一些口语化表达,进而使得输入机器进行机器翻译的语音识别文本带有口语化词语的情况,本发明实施例提供一种文本规整方法及装置,分别从当前语音数据及其识别文本中提取相应的规整特征,利用识别文本中各词单元的词向量、所述规整特征对应的特征向量、以及预先构建的文本规整模型确定各词单元的标签,所述标签用于标识所述词单元应该保留还是删除,然后根据所述标签对所述识别文本进行规整,得到规整后的语音识别文本。
在本发明实施例中,所述文本规整模型采用神经网络模型,如图1所示,所述神经网络模型包括:输入层、特征向量转化层、BLSTM(Bidirectional Long Short-termMemory,双向长短时记忆)层、分类器层、输出层。其中:
输入层的输入包括:词向量W、文本层面特征向量HCF(为了描述方便,后续称之为文本特征)、语音层面特征向量S(为了描述方便,后续称之为语音特征),进一步,还可包括图像层特征向量。
特征向量转化层用于将输入层输入的各词向量及各特征对应的特征向量转换成固定长度的向量表示,并对这些向量进行拼接得到下一层输入。
BLSTM层用于分别由前向后及由后向前自动将待规整文本中各词单元及各特征的高维抽象特征取出,并做向量化拼接后获得隐含层输出向量。在该示例的神经网络模型中,设置了两层BLSTM层,当然,也可以设置一层BLSTM层,对此本发明实施例不做限定。
分类器层即softmax层,用于根据隐含层输出的向量确定各词单元对应各标签的得分。
输出层用于输出各词单元对应的标签,即Disflag1,Disflag2,...Disflagn。
在本发明实施例中,可以设置标签的类别至少包括:删除,还可选的包括:保留。
所述文本规整模型可以预先构建,具体地,可以收集大量训练数据,所述训练数据包括:语音数据及对应所述语音数据的识别文本,并对所述识别文本中的各词单元进行标注,标注出其中的语气词、重复词、不完整词等信息,将这些词的标签设为删除。
提取所述训练数据的文本特征及语音特征,并将这些特征作为规整特征,利用各词单元对应的词向量、所述规整特征对应的特征向量、以及标注信息,训练得到所述文本规整模型的参数。
所述文本规整模型的训练过程与常规神经网络模型的训练过程类似,在此不再详细描述。
由于不同词发音对应的口型不同,因此,在本发明方法另一实施例中,还可以收集与所述语音数据同步的口型信息,将其作为辅助信息,以进一步提高语音识别的准确性,例如,通过口型信息可以辅助判断语音识别文本中是否存在重复词等。从所述口型信息中提取口型特征,综合利用所述文本特征、语音特征及口型特征,训练得到所述文本规整模型,可以使训练中得到的模型参数更准确,进而后续利用该文本规整模型得到的识别文本中各词单元对应的标签更准确。
本发明实施例提供的文本规整方法及装置,利用上述文本规整模型,确定识别文本中各词单元对应的标签类型,将标签类型为删除的词单元从识别文本中去除。
需要说明的是,本发明方案不仅可以应用于对中文语音识别文本的规整处理,而且可以应用于其它语言的语音识别文本的规整处理,比如英语语音识别得到的英文文本等。
如图2所示,是本发明实施例文本规整方法的一种流程图,包括以下步骤:
步骤201,获取语音数据及所述语音数据对应的识别文本。
所述识别文本可以通过对所述语音数据进行语音识别处理得到,本发明实施例对具体的语音识别处理技术不做限定,不论采用何种语音识别处理技术,均不会对本发明方案的技术效果产生影响。
步骤202,获取所述识别文本中的词单元及所述词单元对应的词向量。
对于以词为单位的语言,比如英语,其识别文本中的每个词即为一个词单元。
对于以字为单位的语言,比如中文,如果得到的识别文本为一个汉字序列,则还需要对其进行分词处理。当然,也可以直接根据语音解码网络得到识别文本中的各词单元。
所述分词处理是将一个汉字序列切分成一个一个单独的词。为了描述方便,在本发明实施例中,将分词处理后得到的单独的词称为词单元。
具体的分词处理方法可采用:基于字符串匹配的分词方法、基于统计的分词方法等。
所述基于字符串匹配的分词方法是按照一定的策略将所述识别文本与预先建立的词典中的词条进行匹配,得到各词单元。
所述基于统计的分词方法是在给定大量已经分词的文本的前提下,利用统计模型学习词语切分的规律,从而实现对未知文本的切分。所述统计模型比如可以是:N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场模型等。
可以利用Glove模型得到各词单元的词向量,所述Glove模型是用来实现对中文词语的分布式向量化表达的一种模型,其融合了矩阵分解(Latent Semantic Analysis,LSA)的全局统计信息和局部上下文窗口(local context window)优势,融入全局的先验统计信息。
步骤203,提取规整特征,具体包括从所述语音数据中提取语音特征,并从所述识别文本中提取文本特征。
其中,所述文本特征可以包括但不限于以下任意一项或多项:词性特征、Ngram(N元文法模型)重复特征、临近词模糊匹配得分。
词性特征:所述词性特征是指以词的特点作为根据进行的词类划分,如名词、动词、副词等。词性特征的提取可以采用现有工具包,如StandfordNLP或者LTP工具等。
Ngram重复特征:所述Ngram包括一元词组和二元词组。所述重复特征是指当前词组与前后N个词组是否相同。
比如,识别文本为:额昨天我到了我去了清华科技园。
以“去了”为例子,其为一元词组,以当前词组“去了”为中心,取左边15个词组和右边15个词组进行比较,相同取1,不相同取0,形成当前词的30维特征向量。
以“我去了”为例子,其为二元词组,以其为中心,取前后各4个二元词组进行比较,相同取1,不相同取0,形成当前二元词组的8维向量。
临近词模糊匹配得分:所述临近词模糊匹配得分是指当前词组与左边临近词组的相同字数(如中文)或者相同字符数(如英文)的2倍除以两个词组的总和。
所述语音特征可以包括但不限于以下任意一项或多项:基频特征、停顿特征、能量特征。
基频特征:所述基频特征是指当前词组的连续基频值;提取基频特征时,以当前词的中心帧向前后各取M帧数据的基频值作为当前词组的基频向量,其中M根据实验取适当的值。
停顿特征:所述停顿特征是指当前词组对应语音数据与后一个词组对应语音数据的时间间隔;提取停顿特征时,直接获取当前词组结束位置与后一个词组开始位置的时间间隔长度,单位为s。
能量特征:所述能量特征是指当前词组的能量变化;能量特征的提取与基频特征的提取类似。
步骤204,将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除。
步骤205,根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
具体地,删除所述识别文本中标签为删除的词单元,得到规整后的语音识别文本。
利用本发明实施例提供的文本规整方法,可以将口语化的语音识别文本转换为规范化的书面语言表达,使规整后的文本具有更好的阅读性及流利性。
对于机器翻译***来说,规范化的文本输入相较于口语化的文本输入,可以得到更好的翻译结果。而且,基于规范化的文本,可以对语音识别文本进行更准确的标点标注。
例如,口语化的文本为:额,昨天我到了,我去了清华科技园;
将上述口语化的文本输入机器翻译***,得到的机器翻译结果为:Well,Iarrived yesterday,and I went to Tsinghua Science Park。
利用本发明方案对上述口语化的文本进行规整,得到规整后的文本为:昨天我去了清华科技园。
将上述规整后的文本输入机器翻译***,得到的机器翻译结果为:Yesterday Iwent to Tsinghua science par。
显然,后面的翻译结果明显好于前面的翻译结果。
再例如,口语化的文本为:you know i mean my health is very good;
将上述口语化的文本输入机器翻译***,得到的机器翻译结果为:你知道我的意思是我的健康非常好;
利用本发明方案对上述口语化的文本进行规整,得到规整后的文本为:my healthis very good;
将上述规整后的文本输入机器翻译***,得到的机器翻译结果为:我的身体很好。
显然,后面的翻译结果可以使用户得到更准确的理解。
本发明实施例提供的文本规整方法,不仅可以应用于机器同传***中,为机器翻译提供规范化的文本输入;而且也可以应用于其它语音转文字的场景中,比如,会议场景中,可以对现场说话人的语音进行同步录音,并进行语音转文字处理,对得到的语音识别文本进行规整,将规整后的语音识别文本呈现给用户,可以提升用户的阅读体验。
通常,人在发音的时候,不同的词对应的发音口型是不同的,但是同一个词的口型在大多数情况下又是基本相同的。基于这一特点,在本发明方法另一实施例中,还可以综合利用说话人的口型信息来训练文本规整模型,并利用该文本规整模型确定语音识别文本中各词单元的标签,进一步提高标签的准确性。
如图3所示,是本发明实施例文本规整方法的另一种流程图,包括以下步骤:
步骤301,获取语音数据、所述语音数据对应的识别文本、以及与所述语音数据同步的说话人口型信息。
所述识别文本可以通过对所述语音数据进行语音识别处理得到,本发明实施例对具体的语音识别处理技术不做限定,不论采用何种语音识别处理技术,均不会对本发明方案的技术效果产生影响。
所述说话人口型信息可以通过对说话人进行录像,得到视频图像,从所述视频图像中提取说话人口型信息。
步骤302,获取所述识别文本中的词单元及所述词单元对应的词向量。
步骤303,分别从所述语音数据中提取语音特征,从所述识别文本中提取文本特征,从所述口型信息中提取口型特征,得到语音特征向量、文本特征向量、以及口型特征向量。
步骤304,将所述词向量、语音特征向量、文本特征向量、以及口型特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除。
需要说明的是,此处所述的文本规整模型在构建时,规整特征不仅要用到语音特征和文本特征,而且还要综合考虑口型特征。
步骤305,根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
本发明实施例提供的文本规整方法,分别从语音数据、文本数据及图像数据中提取语音特征、文本特征、口型特征,综合利用这些特征确定识别文本中各词单元对应的标签类型,从而可以得到更准确的标签判断结果,使规整后的文本更加规范化,提高了文本规整效果。
利用本发明方案,可以被规整的词主要有:语气词、重复词、语义不完整词等。当然,也可以根据应用需要,选择具体需要被规整的词,对此本发明实施例不做限定。
另外,对于一些语气词,由于可以通过简单的规则、词典匹配等方法滤除,因此在上述各实施例中,在对识别文本进行规整前,也可以先将其中的语气词滤除。
相应地,本发明实施例还提供一种文本规整装置,如图4所示,是该装置的一种结构框图。
在该实施例中,所述文本规整装置包括以下各模块:
语音接收模块401,用于获取语音数据,比如可以通过现场录音设备得到所述语音数据;
识别文本获取模块402,用于获取所述语音数据对应的识别文本,比如可以通过语音识别模块或语音转写设备等获取所述语音数据对应的识别文本;
词单元获取模块403,用于获取所述识别文本中的各词单元及其词向量;
特征提取模块404,用于提取规整特征;所述特征提取模块404包括:语音特征提取单元441和文本特征提取单元442;所述语音特征提取单元441用于从所述语音数据中提取语音特征;所述文本特征提取单元442用于从所述识别文本中提取文本特征;
判断模块405,用于将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除,还可选的包括:保留。
规整模块406,用于根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
所述词单元获取模块403可以采用现有技术获取所述识别文本中的各词单元及其词向量,而且对于不同语种的识别文本,获取方式会有所不同,可以根据各语种的特点进行适应性地调整。
在本发明实施例,所述文本特征可以包括但不限于以下任意一项或多项:词性特征、Ngram重复特征、临近词模糊匹配得分;所述语音特征可以包括但不限于以下任意一项或多项:基频特征、停顿特征、能量特征。
所述文本规整模型可以采用神经网络模型,比如图2所示的模型结构,包括:输入层、特征向量转化层、BLSTM层、分类器层、输出层。
需要说明的是,所述文本规整模型可以由相应的模型构建模块(未图示)预先构建,模型的训练过程与常规神经网络模型的训练过程类似,在此不再详细描述。另外,所述模型构建模块可以作为本发明文本规整装置的一部分,也可以独立于本发明文本规整装置,对此不做限定。
利用所述文本规整模型,所述判断模块405将所述词向量、所述文本特征对应的特征向量、所述语音特征对应的特征向量输入所述文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签用以标识该词单元是否需要删除。
相应地,所述规整模块406删除所述识别文本中标签为删除的词单元,得到规整后的语音识别文本。
例如,识别文本为:额,昨天我到了,我去了清华科技园;
利用所述文本规整模型,得到每个词单元对应的标签,为了清楚起见,采用表格形式表示如下:
词单元 | 额 | 昨天 | 我 | 到了 | 我 | 去了 | 清华 | 科技园 |
标签 | 删除 | 保留 | 删除 | 删除 | 保留 | 保留 | 保留 | 保留 |
通过规整,得到规整后的文本为:昨天我去了清华科技园。
本发明实施例提供的文本规整装置,可以应用于多种场景。比如应用于机器同传***中,可以为机器翻译提供规范化的文本输入;应用于语音转文字的场景中,比如会议场景中,可以对现场说话人的语音进行同步录音,并进行语音转文字处理,对得到的语音识别文本进行规整。
如图5所示,是本发明实施例文本规整装置的另一种结构框图。
与图4所示实施例相比,在该实施例中,所述文本规整装置还进一步包括:口型信息获取模块407,用于获取与所述语音数据同步的说话人口型信息。
相应地,在该实施例中,所述特征提取模块404还包括:口型特征提取单元443,用于从所述口型信息中提取口型特征。
本发明实施例提供的文本规整装置中,特征提取模块404分别从语音数据、文本数据及图像数据中提取语音特征、文本特征、口型特征;所述判断模块405综合利用这些特征确定识别文本中各词单元对应的标签类型,从而可以得到更准确的标签判断结果,使规整后的语音识别文本更加规范化,提高了文本规整效果。
利用本发明文本规整装置,可以被规整的词主要有:语气词、重复词、语义不完整词等。当然,也可以根据应用需要,选择具体需要被规整的词,对此本发明实施例不做限定。
另外,在上述图4和图5所示实施例中,还可进一步包括:过滤模块(未图示),用于在所述词单元获取模块403获取所述识别文本中的各词单元及其词向量之前,滤除所述识别文本中的语气词。
进一步地,在本发明文本规整装置另一实施例中,还可进一步包括:展现模块(未图示),用于在屏幕上展现所述规整后的语音识别文本。比如,在会议场景中,可以对现场说话人的语音进行同步录音,并进行语音转文字处理,对得到的语音识别文本进行规整,将规整后的语音识别文本呈现给用户,可以提升用户的阅读体验。
图6是根据一示例性实施例示出的一种用于搜索词权重确定方法的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类别的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类别的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理***,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述按键误触纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行上述本发明方法实施例中的全部或部分步骤。
图7是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(CentralProcessing Units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作***1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本规整方法,其特征在于,所述方法包括:
获取语音数据及所述语音数据对应的识别文本;
获取所述识别文本中的词单元及所述词单元对应的词向量;
提取规整特征,具体包括从所述语音数据中提取语音特征,并从所述识别文本中提取文本特征;
将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除;
根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
2.根据权利要求1所述的方法,其特征在于,所述文本特征包括以下任意一项或多项:词性特征、Ngram重复特征、临近词模糊匹配得分。
3.根据权利要求1所述的方法,其特征在于,所述语音特征包括以下任意一项或多项:基频特征、停顿特征、能量特征。
4.根据权利要求1所述的方法,其特征在于,所述根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的文本包括:
删除所述识别文本中标签为删除的词单元,得到规整后的文本。
5.根据权利要求1所述的方法,其特征在于,在获取所述识别文本中的各词单元及所述词单元对应的词向量之前,所述方法还包括:
滤除所述识别文本中的语气词。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取与所述语音数据同步的说话人口型信息;
所述提取规整特征还包括:
从所述口型信息中提取口型特征。
7.一种文本规整装置,其特征在于,所述装置包括:
语音接收模块,用于获取语音数据;
识别文本获取模块,用于获取所述语音数据对应的识别文本;
词单元获取模块,用于获取所述识别文本中的各词单元及所述词单元对应的词向量;
特征提取模块,用于提取规整特征;所述特征提取模块包括:语音特征提取单元和文本特征提取单元;所述语音特征提取单元用于从所述语音数据中提取语音特征;所述文本特征提取单元用于从所述识别文本中提取文本特征;
判断模块,用于将所述词向量及所述规整特征对应的特征向量输入预先构建的文本规整模型,根据所述文本规整模型的输出得到所述词单元对应的标签,所述标签至少包括:删除;
规整模块,用于根据所述词单元对应的标签对所述识别文本进行规整,得到规整后的语音识别文本。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
口型信息获取模块,用于获取与所述语音数据同步的说话人口型信息;
所述特征提取模块包括:
口型特征提取单元,用于从所述口型信息中提取口型特征。
9.一种电子设备,其特征在于,包括:一个或多个处理器、存储器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现如权利要求1至6任一项所述的方法。
10.一种可读存储介质,其上存储有指令,所述指令被执行以实现如权利要求1至6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023851.0A CN111435595A (zh) | 2019-01-10 | 2019-01-10 | 文本规整方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910023851.0A CN111435595A (zh) | 2019-01-10 | 2019-01-10 | 文本规整方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111435595A true CN111435595A (zh) | 2020-07-21 |
Family
ID=71579759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910023851.0A Pending CN111435595A (zh) | 2019-01-10 | 2019-01-10 | 文本规整方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111435595A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN112052652A (zh) * | 2020-09-08 | 2020-12-08 | 国家电网有限公司技术学院分公司 | 一种电子课件脚本自动生成方法及装置 |
CN112133285A (zh) * | 2020-08-31 | 2020-12-25 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、***、介质、计算机设备、终端及应用 |
US20220207117A1 (en) * | 2019-09-20 | 2022-06-30 | Huawei Technologies Co., Ltd. | Data theft prevention method and related product |
-
2019
- 2019-01-10 CN CN201910023851.0A patent/CN111435595A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220207117A1 (en) * | 2019-09-20 | 2022-06-30 | Huawei Technologies Co., Ltd. | Data theft prevention method and related product |
CN111832248A (zh) * | 2020-07-27 | 2020-10-27 | 科大讯飞股份有限公司 | 文本规整方法、装置、电子设备和存储介质 |
CN111832248B (zh) * | 2020-07-27 | 2024-07-05 | 中国科学技术大学 | 文本规整方法、装置、电子设备和存储介质 |
CN112133285A (zh) * | 2020-08-31 | 2020-12-25 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112133285B (zh) * | 2020-08-31 | 2024-03-01 | 北京三快在线科技有限公司 | 语音识别方法、装置、存储介质和电子设备 |
CN112052652A (zh) * | 2020-09-08 | 2020-12-08 | 国家电网有限公司技术学院分公司 | 一种电子课件脚本自动生成方法及装置 |
CN112052652B (zh) * | 2020-09-08 | 2024-02-20 | 国家电网有限公司技术学院分公司 | 一种电子课件脚本自动生成方法及装置 |
CN112712804A (zh) * | 2020-12-23 | 2021-04-27 | 哈尔滨工业大学(威海) | 语音识别方法、***、介质、计算机设备、终端及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111435595A (zh) | 文本规整方法及装置 | |
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN109509470B (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
CN107305541B (zh) | 语音识别文本分段方法及装置 | |
WO2020119496A1 (zh) | 基于人工智能的通信方法、装置、设备及可读存储介质 | |
CN112784696B (zh) | 基于图像识别的唇语识别方法、装置、设备及存储介质 | |
WO2018076450A1 (zh) | 一种输入方法和装置、一种用于输入的装置 | |
CN107967250B (zh) | 一种信息处理方法及装置 | |
CN107291704B (zh) | 处理方法和装置、用于处理的装置 | |
US20230089308A1 (en) | Speaker-Turn-Based Online Speaker Diarization with Constrained Spectral Clustering | |
CN107274903B (zh) | 文本处理方法和装置、用于文本处理的装置 | |
US10366173B2 (en) | Device and method of simultaneous interpretation based on real-time extraction of interpretation unit | |
CN112399269B (zh) | 视频分割方法、装置、设备及存储介质 | |
US20170270701A1 (en) | Image processing device, animation display method and computer readable medium | |
CN111368541A (zh) | 命名实体识别方法及装置 | |
CN108628819B (zh) | 处理方法和装置、用于处理的装置 | |
CN109471919B (zh) | 零代词消解方法及装置 | |
KR20170081350A (ko) | 이미지 텍스트에 대한 프레임 단위의 특징벡터 추출에 의한 문자인식 및 번역을 수행하는 문자통역 장치 및 방법 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN111192586B (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN111062221A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
US20190103110A1 (en) | Information processing device, information processing method, and program | |
KR102345625B1 (ko) | 자막 생성 방법 및 이를 수행하는 장치 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220720 Address after: 100084. Room 9, floor 01, cyber building, building 9, building 1, Zhongguancun East Road, Haidian District, Beijing Applicant after: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd. Address before: 100084. Room 9, floor 01, cyber building, building 9, building 1, Zhongguancun East Road, Haidian District, Beijing Applicant before: BEIJING SOGOU TECHNOLOGY DEVELOPMENT Co.,Ltd. Applicant before: SOGOU (HANGZHOU) INTELLIGENT TECHNOLOGY Co.,Ltd. |