CN112735396A - 语音识别纠错方法、装置及存储介质 - Google Patents

语音识别纠错方法、装置及存储介质 Download PDF

Info

Publication number
CN112735396A
CN112735396A CN202110163752.XA CN202110163752A CN112735396A CN 112735396 A CN112735396 A CN 112735396A CN 202110163752 A CN202110163752 A CN 202110163752A CN 112735396 A CN112735396 A CN 112735396A
Authority
CN
China
Prior art keywords
chinese character
pinyin
sequence
error correction
misrecognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110163752.XA
Other languages
English (en)
Inventor
魏天闻
杞坚玮
秦斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202110163752.XA priority Critical patent/CN112735396A/zh
Publication of CN112735396A publication Critical patent/CN112735396A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开涉及一种语音识别纠错方法、装置及存储介质。语音识别纠错方法,包括:获取针对待识别语音进行自动语音识别后得到的汉字序列;获取与所述汉字序列对应的拼音序列;将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。通过本公开,对语音识别后得到的文字进行纠错时,可提升纠错的准确率。

Description

语音识别纠错方法、装置及存储介质
技术领域
本公开涉及语音识别技术,尤其涉及一种语音识别纠错方法、装置及存储介质。
背景技术
自动语音识别(Automatic Speech Recognition,ASR)是一种将人的语音转换为文本的技术。随着终端技术的发展,各种智能终端的计算能力和存储容量有了很大进步,使得语音识别技术在智能终端中得以广泛应用。
在语音识别技术中,需要准确识别语音因素,基于准确识别的语音因素才能转换为文本。但是不论是哪种语言,都会因为各种因素导致ASR对语音识别出现错误的情况。
进而,如何将语音转换为准确的文本,是目前亟需解决的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种语音识别纠错方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种语音识别纠错方法,语音识别纠错方法,包括:
获取针对待识别语音进行自动语音识别后得到的汉字序列;
获取与所述汉字序列对应的拼音序列;
将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
可选地,获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
可选地,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
可选地,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,包括:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
可选地,通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
可选地,所述基于汉字纠错样本集预先训练得到所述纠错模型,包括:
对所述误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,并
对所述误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列;
对所述误识别汉字特征向量序列包括的各汉字特征向量,以及所述误识别拼音特征向量序列包括的各拼音特征向量进行拼接,得到误识别拼接向量序列;
对所述误识别拼接向量序列中每一个拼接向量进行预测,得到预测的每一个汉字;
根据所述预测的每一个汉字,确定所述预测的每一个汉字的损失值;
根据所述每一个汉字的损失值,确定所述误识别汉字序列的总损失值;
根据所述总损失值,对模型进行训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为纠错模型。
根据本公开实施例的第二方面,提供一种语音识别纠错装置,语音识别纠错装置,包括:
获取模块,用于获取针对待识别语音进行自动语音识别后得到的汉字序列,并获取与所述汉字序列对应的拼音序列;
处理模块,用于将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
可选地,所述获取模块采用如下方式获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
可选地,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
可选地,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述处理模块采用如下方式通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述处理模块采用如下方式根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
可选地,所述处理模块还被用于通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
可选地,所述处理模块基于汉字纠错样本集预先训练得到所述纠错模型:
对所述误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,并
对所述误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列;
对所述误识别汉字特征向量序列包括的各汉字特征向量,以及所述误识别拼音特征向量序列包括的各拼音特征向量进行拼接,得到误识别拼接向量序列;
对所述误识别拼接向量序列中每一个拼接向量进行预测,得到预测的每一个汉字;
根据所述预测的每一个汉字,确定所述预测的每一个汉字的损失值;
根据所述每一个汉字的损失值,确定所述误识别汉字序列的总损失值;
根据所述总损失值,对模型进行训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为纠错模型。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的语音识别纠错方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:对自动语音识别后得到的文本进行拼音转换,得到与文本对应的拼音,将文本和拼音输入纠错模型,纠错模型基于文本的特征和拼音的特征,输出经纠错模型纠错后得到的目标文本。本公开中,纠错模型通过获取文本的拼音特征,对文本纠错时,依据文本的拼音能够对文本中的汉字进行有效约束,提升纠错的准确率。并且本公开中通过纠错模型可直接输出对文本纠错后的目标文本,避免通过第一模型和第二模型采用级联纠错的方式,由于第一模型识别误差,导致第二模型输出错误纠错结果,导致错误累积的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图。
图2是根据一示例性实施例示出的一种语音识别纠错方法的流程图。
图3是根据一示例性实施例示出的一种语音识别纠错方法的流程图。
图4是根据一示例性实施例示出的一种训练纠错模型的流程图。
图5是根据一示例性实施例示出的一种语音识别纠错装置的框图。
图6是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
相关技术中,将用户语音通过ASR识别技术生成文本后,会基于自然语言理解技术(Natural Language Understanding,NLU)对生成的文本进行检查并纠正其中可能出现的错误。
基于NLU对生成的文本进行检查并纠正其中可能出现的错误时,一种方式为,将生成的文本输入训练后的纠错模型,通过获取文本中汉字的特征,检查文本中是否存在误识别的汉字,并输出预测正确的文本。由于该方式中模型主要使用汉字特征进行纠错,没有利用汉字拼音对汉字进行约束,纠错准确率不高。例如误识别的文本为“帮我唱一张去北京的火车票”,其中,“唱”字识别错误,正确的原文应该是“抢”。如果忽略汉字读音,则可能将“唱”纠正为“买”或者“订”。
另一种方式为,将生成的文本输入第一个模型,通过第一个模型检测并输出文本中误识别的位置,将第一个模型的输出作为第二个模型的输入,通过第二个模型对误识别位置进行纠错。由于该方式为对文本进行纠错时,如果第一个模型未能发现正确错误位置,则基于第一模型输出的结果,通过第二模型进行纠错,会产生错误累积的问题。
故,本公开提供一种语音识别纠错方法。在本公开的语音识别纠错方法中,对自动语音识别后得到的文本进行拼音转换,得到与文本对应的拼音,将文本和与文本对应的拼音输入纠错模型,纠错模型基于文本的特征和拼音的特征,输出经纠错模型纠错后得到的目标文本。本公开中,纠错模型通过获取文本的拼音特征,对文本纠错时,依据文本的拼音能够对文本中的汉字进行有效约束,提升纠错的准确率。并且本公开中通过纠错模型可直接输出对文本纠错后的目标文本,避免通过第一模型和第二模型采用级联纠错的方式,由于第一模型识别误差,导致第二模型输出错误纠错结果,导致错误累积的问题。
图1是根据一示例性实施例示出的一种语音识别纠错方法的流程图,如图1所示,语音识别纠错方法,包括以下步骤。
在步骤S11中,获取针对待识别语音进行自动语音识别后得到的汉字序列。
本公开中,待识别语音可以是在语音交互场景中,终端采集的用户语音。
一种实施方式中,对待识别文本进行自动语音识别,可以采用多种技术进行识别。例如可以包括ASR识别等。其中,ASR识别技术,是为了在自动语音交互中,将用户音频识别为文字的技术。利用ASR识别技术自动语音识别的流程为:语音采集,语音特征标注,训练基于深度学习的算法(RNN、CNN)训练模型,部署模型并通过模型实时识别,将语音转为文字。
在步骤S12中,获取与汉字序列对应的拼音序列。
本公开中,可从预先建立的汉字到拼音的映射表中,查找汉字序列包含的各汉字分别对应的拼音,并基于各汉字分别对应的拼音,得到汉字序列的拼音序列。
为了得到与文本对应的拼音,一种实施方式中,本公开可根据汉字的标准拼音,预先建立汉字到标准拼音的映射表。例如,将汉字“月”与拼音“yue”建立映射关系,将汉字“外”与拼音“wai”建立映射关系,等等。进而得到汉字到拼音的映射表。
本公开中,通过获取待识别语音,对待识别语音进行自动语音识别,得到文本,即得到汉字序列后,根据预先建立的汉字到拼音的映射表,查找汉字序列中包含各汉字分别对应的拼音,并基于各汉字分别对应的拼音,得到汉字序列的拼音序列。
在步骤S13中,将汉字序列和拼音序列输入预先训练的纠错模型,通过纠错模型提取汉字序列和拼音序列的特征向量,并根据汉字序列和拼音序列的特征向量,输出目标汉字序列。
在本公开示例性实施例中,对自动语音识别后得到的文本进行拼音转换,得到与文本对应的拼音,将文本和拼音输入纠错模型,纠错模型基于文本的特征和拼音的特征,输出目标文本。本公开中,纠错模型通过获取文本的拼音特征,对文本纠错时,依据文本的拼音能够对文本中的汉字进行有效约束,提升纠错的准确率。并且本公开中通过纠错模型可直接输出对文本纠错后的目标文本,避免通过第一模型和第二模型采用级联纠错的方式,由于第一模型识别误差,导致第二模型输出错误纠错结果,导致错误累积的问题。
图2是根据一示例性实施例示出的一种语音识别纠错方法的流程图,如图2所示,语音识别纠错方法,包括以下步骤。
在步骤S21中,确定汉字到拼音的映射表。
在步骤S22中,获取针对待识别语音进行自动语音识别后得到的汉字序列。
在步骤S23中,从预先确定的汉字到拼音的映射表中,查找汉字序列包括的各汉字分别对应的拼音,基于各汉字分别对应的拼音,得到拼音序列。
在步骤S24中,将汉字序列和拼音序列输入至预先训练的纠错模型,通过纠错模型提取汉字序列和拼音序列的特征向量,并根据汉字序列和拼音序列的特征向量,输出目标汉字序列。
通常,当拼音之间的编辑距离很小时,表明拼音的发音很相似。例如拼音“hao”、“lao”、“pao”,或者拼音“huang”“guang”“kuang”等等。
但目前汉字拼音中还存在一部分汉字的发音很相似,但拼音不相似,拼音之间的编辑距离比较大的情况,例如拼音“yao”和“xiao”,它们在发音上比较相似,但“yao”和“xiao”的拼音不相似,由一个拼音转成另一个拼音时,需要编辑2个距离,编辑距离比较大。
针对该类情况,为了使汉语拼音的拼写更能够反应汉字的发音,即满足汉字发音相似,拼音也相似的特点,保证纠错模型能够快速、准确识别汉字序列中存在的误识别情况,本公开可根据预设的规则,对符合规则的拼音进行重新构建,使得构建后发音相似的拼音之间,满足拼音之间的编辑距离小于预设的编辑距离阈值,其中,编辑距离表征一个拼音转换成另一个拼音所需要的最少编辑次数,即最少操作次数。
一种实施方式中,本公开例如可通过如下规则确定汉字到拼音的映射关系,得到汉字到拼音的映射表:
规则一:针对无声母的第一拼音,根据声母加韵母的方式,重新构建第一拼音的拼写,得到构建后的第一拼音。
一种实施方式中,针对拼音中无声母的拼音,可采用单独的能与26个英文字母区分开的字符表示“无声母”。为方便表述,且不失一般性,例如可以将表示“无声母”的字符记为“#”。例如汉字“安”的标准拼音是“an”,重新构建“安”的拼音后,得到新的与“安”对应的拼音记为“#an”。汉字“挖”的标准拼音为“wa”,重新构建“挖”的拼音后,得到新的与“挖”对应的拼音为“#ua”。汉字“一”的标准拼音是“yi”,得到新的与“一”对应的拼音记为记为“#i”,汉字“要”的标准拼音为“yao”,重新构建“要”的音后,得到新的与“要”对应的拼音为“#iao”。
规则二:针对拼音拼写和发音不一致的第二拼音,根据预设的韵母,重新构建第二拼音的拼写,得到构建后的第二拼音。
一种实施方式中,例如针对标准拼音中的“ü”,在无声母,或声母为j,q,x的时候会记为“u”,例如汉字“雨”的标准拼音是“yu”而不是“yü”。汉字“女”的标准拼音是“nü”而不是“nu”。由此,为方便纠错模型对拼音特征的识别,用唯一确定的符号来表示该发音。不失一般性,例如将“u”和“ü”使用符号“v”代替。
规则三:针对预设发音的第三拼音,重新构建第三拼音的拼写,得到构建后的第三拼音。
例如,针对标准拼音中的韵母“iu”,“ui”和“un”,例如可分别记为“iou”,“uei”和“uen”。
针对标准拼音ri、zi、ci、si、zhi、chi、shi的韵母“i”,为区别其他拼音中的“i”,例如可将上述中的“i”记为“!”。
经过上述规则,将与第一拼音、第二拼音和第三拼音的发音对应的汉字,分别与构建后的第一拼音、构建后的第二拼音、构建后的第三拼音进行关联,得到汉字到拼音的映射表,其中,汉字到拼音的映射表中发音相似的拼音之间,满足拼音之间的编辑距离小于预设的编辑距离阈值。
例如,针对拼音为“yao”和“xiao”的示例中,例如预设的编辑距离阈值为2,通过将标准拼音是“yao”,中的“y”重新构建记为“#i”,得到新的拼音即“#iao”。使得“#iao”和“xiao”的编辑距离为1,满足拼音之间的发音很相似时,拼音之间的编辑距离小于预设的编辑距离阈值。
表1为根据上述规则,建立的部分汉字到应用本公开拼音规则的拼音映射示例表,如表1所示,下述汉字与标准拼音的映射关系,以及下述汉字与应用本公开拼音规则拼音的映射关系。
Figure BDA0002936657440000111
Figure BDA0002936657440000121
Figure BDA0002936657440000131
表1
在本公开的示例性实施例中,通过对标准拼音重新构建,得到汉字到拼音的映射表,使得汉字到拼音的映射表中发音相似的拼音之间,满足拼音之间的编辑距离小于预设的编辑距离阈值。通过本公开,使得汉字到拼音的映射表中汉语拼音的拼写更能够反应汉字的发音,提升纠错模型识别汉字序列中存在的误识别的准确度。
图3是根据一示例性实施例示出的一种语音识别纠错方法的流程图,如图3所示,语音识别纠错方法,包括以下步骤。
在步骤S31中,获取针对待识别语音进行自动语音识别后得到的汉字序列。
在步骤S32中,从预先确定的汉字到拼音的映射表中,查找汉字序列包括的各汉字分别对应的拼音,基于各汉字分别对应的拼音,得到汉字序列的拼音序列。
在步骤S33中,通过汉字编码子模型对汉字序列包括的各汉字进行编码,得到汉字序列的汉字特征向量序列,并通过拼音编码子模型对拼音序列中包含的拼音进行编码,得到拼音序列的拼音特征向量序列。
本公开中,纠错模型可以包括汉字编码子模型和拼音编码子模型,汉字编码子模型和拼音编码子模型例如可以是基于长短期记忆网络(Long Short Term Mermorynetwork,LSTM),或者翻译(Transformer)模型、嵌入式语言模型(Embedding fromLanguage Model,ELMO)模型,或者双向翻译编码(Bidirectional EncoderRepresentation from Transformers,BERT)模型训练得到。
根据输入纠错模型的汉字序列,通过汉字编码子模型对汉字序列包括的各汉字进行编码,得到汉字特征向量序列。同样,根据输入纠错模型的拼音序列,通过拼音编码子模型对拼音序列包括的各拼音进行编码,得到拼音特征向量序列。
在步骤S34中,对汉字特征向量序列包括的各汉字特征向量和拼音特征向量序列包含的各拼音特征向量进行拼接,得到包括各汉字拼接向量的拼接向量序列。
本公开中,在得到每个汉字的特征向量和拼音向量之后,对每个汉字进行汉字向量和拼音向量的拼接,得到对应汉字的拼接向量。
例如,输入汉字编码子模型的汉字序列长度为20,汉字向量的维度为512,则汉字编码子模型的输出的汉字向量序列可以是尺寸为(512,20)的矩阵,同样,将上述汉字序列的拼音序列输入拼音编码子模型,拼音序列的长度同样为20,拼音向量的维度为256,则拼音编码子模型的输出的拼音向量序列可以是尺寸为(256,20)的矩阵,对汉字特征向量序列包含的各汉字特征向量和拼音特征向量序列包含的各拼音特征向量进行拼接,得到包括各汉字拼接向量的拼接向量序列,即得到拼接后拼接向量序列的矩阵尺寸为(768,20)。
在步骤S35中,对拼接向量序列中各汉字拼接向量进行预测,输出目标汉字序列。
在本公开的示例性实施例中,对自动语音识别后得到的文本进行拼音转换,得到与文本对应的拼音,将文本和拼音输入纠错模型,纠错模型基于文本的特征和拼音的特征,输出经纠错模型纠错后得到的目标文本。本公开中,纠错模型通过获取文本的拼音特征,对文本纠错时,依据文本的拼音能够对文本中的汉字进行有效约束,提升纠错的准确率。并且本公开中通过纠错模型可直接输出对文本纠错后的目标文本,避免通过第一模型和第二模型采用级联纠错的方式,由于第一模型识别误差,导致第二模型输出错误纠错结果,导致错误累积的问题。
本公开中,利用纠错模型识别汉字序列中各汉字是否存在识别错误之前,还包括训练纠错模型。
图4是根据一示例性实施例示出的一种训练纠错模型的流程图,如图4所示,包括以下步骤。
在步骤S41中,获取汉字纠错样本集。
为了使训练后的纠错模型能够准确识别到汉字序列是否存在识别错误的汉字,一种实施方式中,本公开可基于汉字纠错样本集训练纠错模型,得到训练好的纠错模型。其中,例如可将汉字纠错样本集中70%的数据作为训练数据集训练纠错模型,汉字纠错样本集中30%的数据作为测试数据集验证纠错模型。
其中,汉字纠错样本集中包括多对训练样本,多对训练样本中的每一对训练样本包括误识别汉字样本以及与误识别汉字样本对应的正确汉字样本,并且误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
在步骤S42中,训练纠错模型,并对纠错模型进行优化。
一种实施方式中,将汉字纠错样本集输入模型,通过模型中包括的汉字编码子模型对误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,通过模型中包括的拼音编码子模型对误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列。对误识别汉字特征向量序列包含的各汉字特征向量和误识别拼音特征向量序列包含的各拼音特征向量进行拼接,得到误识别拼接向量序列。
通过损失函数例如交叉熵函数计算预测的每个汉字与对应实际汉字之间的损失值即预测汉字与实际汉字的误差,将每个汉字的损失值进行求和,得到预测的汉字序列的总损失值。
根据总损失值,对模型进行训练,直到总损失值低于预设的阈值,得到训练后的纠错模型。
得到训练好的纠错型后,将测试数据集输入纠错模型进行验证,在验证数据集全部通过验证后,将通过验证的纠错模型用于实际应用中。
在步骤S43中,将测试数据集输入到训练好的纠错模型中进行验证,得到验证好的纠错模型。
在本公开的示例性实施例中,通过获取包括误识别汉字样本以及与误识别汉字样本对应的正确汉字样本的汉字纠错样本集,且误识别汉字样本中包括误识别汉字序列和误识别汉字序列的拼音序列,可训练得到能够识别汉字特征和拼音特征的纠错模型,使得纠错模型对文本纠错时,能够依据文本的拼音能够对文本中的汉字进行有效约束,提升纠错的准确率。并且本公开中通过纠错模型可直接输出对文本纠错后的目标文本,避免通过第一模型和第二模型采用级联纠错的方式,由于第一模型识别误差,导致第二模型输出错误纠错结果,导致错误累积的问题。
图5是根据一示例性实施例示出的一种语音识别纠错装置框图500。参照图5,该装置包括获取模块501、和处理模块502。
获取模块501,用于获取针对待识别语音进行自动语音识别后得到的汉字序列,并获取与所述汉字序列对应的拼音序列;
处理模块502,用于将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
可选地,所述获取模块501采用如下方式获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
可选地,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值。
可选地,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述处理模块502采用如下方式通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述处理模块502采用如下方式根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
可选地,所述处理模块502还被用于通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
可选地,所述处理模块502基于汉字纠错样本集预先训练得到所述纠错模型:
对所述误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,并
对所述误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列;
对所述误识别汉字特征向量序列包括的各汉字特征向量,以及所述误识别拼音特征向量序列包括的各拼音特征向量进行拼接,得到误识别拼接向量序列;
对所述误识别拼接向量序列中每一个拼接向量进行预测,得到预测的每一个汉字;
根据所述预测的每一个汉字,确定所述预测的每一个汉字的损失值;
根据所述每一个汉字的损失值,确定所述误识别汉字序列的总损失值;
根据所述总损失值,对模型进行训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为纠错模型。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的语音识别纠错方法的步骤。
图6是根据一示例性实施例示出的一种用于语音识别纠错的装置600的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的语音识别纠错方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理***,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述语音识别纠错方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述语音识别纠错方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的语音识别纠错方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种语音识别纠错方法,其特征在于,包括:
获取针对待识别语音进行自动语音识别后得到的汉字序列;
获取与所述汉字序列对应的拼音序列;
将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
2.根据权利要求1所述的语音识别纠错方法,其特征在于,获取与所述汉字序列对应的拼音序列包括:
从预先确定的汉字到拼音的映射表中,查找所述汉字序列包括的各汉字分别对应的拼音;
基于所述各汉字分别对应的拼音,得到所述拼音序列。
3.根据权利要求2所述的语音识别纠错方法,其特征在于,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
4.根据权利要求1所述的语音识别纠错方法,其特征在于,所述纠错模型包括汉字编码子模型和拼音编码子模型;
所述通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,包括:
通过所述汉字编码子模型对所述汉字序列中包括的各汉字进行编码,得到各汉字特征向量,并
通过所述拼音编码子模型对所述拼音序列中包括的拼音进行编码,得到各拼音特征向量;
所述根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列,包括:
对所述各汉字特征向量和所述各拼音特征向量进行拼接,得到各汉字拼接向量;
对所述各汉字拼接向量进行预测,输出包括目标汉字的目标汉字序列。
5.根据权利要求1所述的语音识别纠错方法,其特征在于,通过如下方式预先训练得到所述纠错模型:
基于汉字纠错样本集预先训练得到所述纠错模型;
其中,所述汉字纠错样本集包括多对训练样本,所述多对训练样本中的每一对训练样本包括误识别汉字样本以及与所述误识别汉字样本对应的正确汉字样本,所述误识别汉字样本包括误识别汉字序列和误识别汉字序列的拼音序列。
6.根据权利要求5所述的语音识别纠错方法,其特征在于,所述基于汉字纠错样本集预先训练得到所述纠错模型,包括:
对所述误识别汉字序列中的各汉字进行编码,得到误识别汉字特征向量序列,并
对所述误识别拼音序列中的各拼音进行编码,得到误识别拼音特征向量序列;
对所述误识别汉字特征向量序列包括的各汉字特征向量,以及所述误识别拼音特征向量序列包括的各拼音特征向量进行拼接,得到误识别拼接向量序列;
对所述误识别拼接向量序列中每一个拼接向量进行预测,得到预测的每一个汉字;
根据所述预测的每一个汉字,确定所述预测的每一个汉字的损失值;
根据所述每一个汉字的损失值,确定所述误识别汉字序列的总损失值;
根据所述总损失值,对模型进行训练,直至所述总损失值符合训练结束条件时,将训练结束时的模型确定为纠错模型。
7.一种语音识别纠错装置,其特征在于,包括:
获取模块,被配置为获取针对待识别语音进行自动语音识别后得到的汉字序列,并获取与所述汉字序列对应的拼音序列;
处理模块,被配置为将所述汉字序列和所述拼音序列输入至预先训练的纠错模型,通过所述纠错模型提取所述汉字序列和所述拼音序列的特征向量,并根据所述汉字序列和所述拼音序列的特征向量,输出目标汉字序列。
8.根据权利要求1所述的语音识别纠错装置,其特征在于,所述汉字到拼音的映射表包括发音相似的第一汉字和第二汉字,以及与所述第一汉字对应的第一拼音和与所述第二汉字对应的第二拼音,其中,所述第一拼音和所述第二拼音之间的编辑距离小于预设的编辑距离阈值,所述编辑距离表征所述第一拼音转换成所述第二拼音所需要的最少编辑次数。
9.一种语音识别纠错装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:用于通过执行所述指令,对所采集的待翻译图像执行如权利要求1-6中任一项所述的语音识别纠错方法。
10.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
CN202110163752.XA 2021-02-05 2021-02-05 语音识别纠错方法、装置及存储介质 Pending CN112735396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110163752.XA CN112735396A (zh) 2021-02-05 2021-02-05 语音识别纠错方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110163752.XA CN112735396A (zh) 2021-02-05 2021-02-05 语音识别纠错方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112735396A true CN112735396A (zh) 2021-04-30

Family

ID=75596101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110163752.XA Pending CN112735396A (zh) 2021-02-05 2021-02-05 语音识别纠错方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112735396A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966496A (zh) * 2021-05-19 2021-06-15 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及***
CN113782030A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 基于多模态语音识别结果纠错方法及相关设备
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035249A2 (en) * 1999-11-05 2001-05-17 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN110428822A (zh) * 2019-08-05 2019-11-08 重庆电子工程职业学院 一种语音识别纠错方法及人机对话***
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、***以及存储介质
CN111444705A (zh) * 2020-03-10 2020-07-24 中国平安人寿保险股份有限公司 纠错方法、装置、设备及可读存储介质
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和***
CN112149406A (zh) * 2020-09-25 2020-12-29 中国电子科技集团公司第十五研究所 一种中文文本纠错方法及***
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001035249A2 (en) * 1999-11-05 2001-05-17 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
CN106297797A (zh) * 2016-07-26 2017-01-04 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
WO2018018867A1 (zh) * 2016-07-26 2018-02-01 百度在线网络技术(北京)有限公司 语音识别结果纠错方法和装置
CN110827795A (zh) * 2018-08-07 2020-02-21 阿里巴巴集团控股有限公司 语音输入结束判断方法、装置、设备、***以及存储介质
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和***
CN110428822A (zh) * 2019-08-05 2019-11-08 重庆电子工程职业学院 一种语音识别纠错方法及人机对话***
CN110516248A (zh) * 2019-08-27 2019-11-29 出门问问(苏州)信息科技有限公司 语音识别结果纠错方法、装置、存储介质和电子设备
CN110765772A (zh) * 2019-10-12 2020-02-07 北京工商大学 拼音作为特征的中文语音识别后的文本神经网络纠错模型
CN111444705A (zh) * 2020-03-10 2020-07-24 中国平安人寿保险股份有限公司 纠错方法、装置、设备及可读存储介质
CN112149406A (zh) * 2020-09-25 2020-12-29 中国电子科技集团公司第十五研究所 一种中文文本纠错方法及***
CN112232062A (zh) * 2020-12-11 2021-01-15 北京百度网讯科技有限公司 文本纠错方法、装置、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966496A (zh) * 2021-05-19 2021-06-15 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及***
CN112966496B (zh) * 2021-05-19 2021-09-14 灯塔财经信息有限公司 一种基于拼音特征表征的中文纠错方法及***
CN113782030A (zh) * 2021-09-10 2021-12-10 平安科技(深圳)有限公司 基于多模态语音识别结果纠错方法及相关设备
CN113782030B (zh) * 2021-09-10 2024-02-02 平安科技(深圳)有限公司 基于多模态语音识别结果纠错方法及相关设备
CN114970666A (zh) * 2022-03-29 2022-08-30 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质
CN114970666B (zh) * 2022-03-29 2023-08-29 北京百度网讯科技有限公司 一种口语处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
CN107221330B (zh) 标点添加方法和装置、用于标点添加的装置
CN110210310B (zh) 一种视频处理方法、装置和用于视频处理的装置
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN108399914B (zh) 一种语音识别的方法和装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
EP3790001B1 (en) Speech information processing method, device and storage medium
CN107274903B (zh) 文本处理方法和装置、用于文本处理的装置
CN111369978B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN114154459A (zh) 语音识别文本处理方法、装置、电子设备及存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN113539233A (zh) 一种语音处理方法、装置和电子设备
CN112035651B (zh) 语句补全方法、装置及计算机可读存储介质
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN110930977B (zh) 一种数据处理方法、装置和电子设备
CN105913841B (zh) 语音识别方法、装置及终端
CN111640452B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN109887492B (zh) 一种数据处理方法、装置和电子设备
CN111324214B (zh) 一种语句纠错方法和装置
CN111832297A (zh) 词性标注方法、装置及计算机可读存储介质
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN112331194A (zh) 一种输入方法、装置和电子设备
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN114462410A (zh) 实体识别方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination