CN113807080A - 文本纠正方法、设备及存储介质 - Google Patents
文本纠正方法、设备及存储介质 Download PDFInfo
- Publication number
- CN113807080A CN113807080A CN202010544358.6A CN202010544358A CN113807080A CN 113807080 A CN113807080 A CN 113807080A CN 202010544358 A CN202010544358 A CN 202010544358A CN 113807080 A CN113807080 A CN 113807080A
- Authority
- CN
- China
- Prior art keywords
- text
- pinyin
- corrected
- corpus
- identifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种文本纠正方法、设备及存储介质。在本申请实施例中,采用带有指定特征标识符的训练语料,以拼音转汉字的方式进行有针对性的训练,可以得到具有纠错能力的拼音‑文本预测模型,通过该拼音‑文本预测模型对输入待纠正文本对应的带有指定特征标识符的拼音序列进行文本预测,可以解决在语音识别过程中存在的文本错误、首字遗漏以及不同领域词汇冲突等问题,得到准确的纠正后文本,大大提升了语音识别过程的准确度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本纠正方法、设备及存储介质。
背景技术
随着人工智能的迅速发展,越来越多的智能机器应用到人们的生活当中,为了降低用户在使用智能机器时的难度,大多数智能机器都配有语音识别功能。用户在使用智能机器时,可向智能机器输入语音指令,智能机器可将接收到的语音指令转换成文本信息,通过对文本信息的解析来识别用户的意图,进而执行相应的任务。
然而,在人机进行语音交互的过程中,由于复杂的交互场景和环境,以及不同用户具有不同的口音,常存在智能机器识别语音不准确的情况,无法转换成对应的文本信息或者转换的文本信息有误,导致智能机器无法进行人机对话或执行相应的任务。
发明内容
本申请的多个方面提供一种文本纠正方法、设备及存储介质,用以提高人机交互过程中语音信息转换成文本信息的准确率。
本申请实施例提供了一种文本纠正方法,所述方法包括:获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
本申请实施例还提供了一种文本纠正设备,所述设备包括:处理器以及存储有计算机程序的存储器;所述处理器,用于执行所述计算机程序,以用于:获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
本申请实施例还提供了一种存储有计算机程序的计算机可读存储介质,当所述计算机程序被处理器执行时,致使所述处理器至少实现以下动作:获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
在本申请实施例中,采用带有指定特征标识符的训练语料,以拼音转汉字的方式进行有针对性的训练,可以得到具有纠错能力的拼音-文本预测模型,通过该拼音-文本预测模型对输入待纠正文本对应的带有指定特征标识符的拼音序列进行文本预测,可以解决在语音识别过程中存在的文本错误、首字遗漏以及不同领域词汇冲突等问题,得到准确的纠正后文本,大大提升了语音识别过程的准确度。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1a为本申请实施例提供的一种文本纠正方法的流程图;
图1b为本申请实施例提供的一种拼音-文本预测模型的结构示意图;
图2为本申请实施例提供的一种文本纠正设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在现有人机交互技术中,例如服务机器人、扫地机器人等智能机器人,智能音箱、电视、手持终端等智能设备,以及无人驾驶汽车、自主服务机等智能机器都支持人机交互功能,在使用时可以通过语音识别技术将用户发出的语音指令转化为文本,并对文本进行解析处理来识别用户的意图,进而进行人机对话或者执行相应的动作。但是由于复杂的场景和环境,以及不同的用户存在不同口音等问题,在语音识别过程中,常常出现词汇遗漏和错误的问题;另外,在语音识别过程中,对于不同领域中相同或近似发音的词汇,常会出现词汇冲突的情况。因此,在实际应用中,需要对上述语音转换成文本过程中存在文本遗漏、文本错误以及不同领域词汇冲突等问题进行纠正,以提高智能机器后续对用户的意图识别和业务处理的能力。
为解决上述问题,本申请实施例提供了一种文本纠正方法,该方法可用于文本纠正设备。图1a为本申请实施例提供的文本纠正方法的流程图,如图1a所示,方法包括:
S1a、获取待纠正文本,待纠正文本是对语音信号进行语音识别得到的。
S2a、生成待纠正文本对应的初始拼音序列,并在初始拼音序列中添加指定特征标识符得到目标拼音序列。
S3a、将目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;拼音-文本预测模型是根据带有指定特征标识符的训练语料训练得到的。
S4a、从候选文本集合中,选择待纠正文本对应的纠正后文本。
在本实施例中,将对语音信号进行语音识别得到的文本信息称为待纠正文本。在本申请实施例中,并不限定语音识别的应用场景,可以是任何能够将用户的语音信号转换为文本信息的应用场景。例如,在银行、商场或超市等场景中,用户通过服务机器人进行自助语音服务过程中,服务机器人可将用户输入的语音问题识别为文本信息,据此理解用户意图,向用户提供相应的服务。又例如,在使用智能终端,如手机、平板电脑等过程中,智能终端可将用户输入的语音指令识别为文本信息,据此理解用户意图。又例如,在智能家居场景中,电视机、智能冰箱、扫地机器人等智能家居设备可将用户输入的语音指令识别为文本信息,据此理解用户意图。由语音识别得到的文本信息可能存在词汇遗漏、错误以及领域词汇冲突等各种问题,本实施例以待纠正文本为对象,对待纠正文本进行文本纠正,使得具有语音识别功能的智能机器(智能机器可以是但不限于:服务机器人、智能终端、智能家居设备等)可以根据纠正后文本来理解用户意图,提高对用户意图理解的准确度,进而提高基于用户意图执行相应的动作的准确度。
在本实施例中,采用拼音转汉字的形式对待纠正文本进行纠正。首先,对待纠正文本进行解析和处理,生成待纠正文本对应的初始拼音序列,并在初始拼音序列中添加指定特征标识符,以得到包含指定特征标识符的目标拼音序列。在本申请实施例中,指定特征标识符表示用来解决由语音识别得到的文本可能存在的问题所需的特征信息,指定特征标识符可以是一个,也可以是多个。例如,若由语音识别得到的文本可能存在首字遗漏的问题,则可以包含首字标识符,用来表示由语音识别得到的文本可能需要添加首字。首字遗漏是指由语音识别得到的文本中缺少或遗漏首个字的问题。又例如,由语音识别得到的文本可能存在领域词汇冲突的问题,则可以包含场景标识符,用来表示由语音识别得到的文本的领域场景,用以解决不同领域内的词汇冲突问题。领域词汇冲突是指在语音识别过程中将某一领域中的文本错误地识别为其它领域中的文本的问题。
进一步,在本申请实施例中,预先采用带有指定特征标识符的训练语料训练得到拼音-文本预测训练模型,通过拼音-文本预测训练模型对待纠正文本对应的目标拼音序列进行文本预测,得到包含至少一个候选文本的候选文本集合,之后,可以从候选文本集合中选择纠正文本对应的纠正后文本。其中,针对语音识别过程中可能存在的问题,在训练语料中添加解决这些问题所需的特征标识符,基于具有这些特征标识符的训练语料训练出的拼音-文本预测模型(即由拼音转文本的模型)具有纠错能力,可以解决语音识别过程中存在的问题,进而输出克服相应文本的候选文本集合。在实际使用时,将由语音识别得到的待纠正文本转换为带有相应特征标识符的拼音序列,将带有相应特征标识符的目标拼音序列输入拼音-文本预测模型重新进行文本预测,得到一定程度上克服了与目标拼音序列中带有的特征标识符所对应的语音识别问题(例如首字遗漏、领域词汇冲突等)的候选文本,达到文本纠正的目的,从而克服语音识别过程中存在的问题,提升文本纠正的准确率,使得后续基于纠正后的文本的意图识别和动作执行更加准确。
在本申请实施例中,初始拼音序列是指直接以待纠正文本为基础生成的拼音序列,是添加指定特征标识符之前的拼音序列。在本申请实施例中,并不限定生成初始拼音序列的方式。在一可选实施例中,可以提供至少一种拼音模式,不同拼音模式对应不同的拼音特征,且具有不同的拼音效果,在实际使用中,可根据输入文本的拼音特征,选择与之适配的拼音模式。基于此,一种生成待纠正文本对应的初始拼音序列的方式包括:根据待纠正文本的拼音特征,从至少一种拼音模式中选择目标拼音模式;根据目标拼音模式,生成待纠正文本对应的初始拼音序列。
可选地,本实施例提到的至少一种拼音模式可包括以下提到的拼音模式:去声调拼音模式、带声调拼音模式、去声调且声母韵母分开的拼音模式、带声调且声母韵母分开的拼音模式、仅使用首个声母或韵母的拼音模式以及韵母拼音细分的拼音模式等。去声调拼音模式是指只有拼音不带声调的拼音模式;带声调拼音模式是指既有拼音又带声调的拼音模式;去声调且声母韵母分开的拼音模式是指只有拼音不带声调,且相邻声母和韵母间隔开的拼音模式;带声调且声母韵母分开的拼音模式是指既有拼音又带声调,且相邻声母和韵母间隔开的拼音模式;仅使用首个声母或韵母的拼音模式是指仅使用每个字的拼音首字母的拼音模式;韵母拼音细分的拼音模式是指拼音中所有相邻字母都间隔开的拼音模式。例如,以用户在银行取款,向银行服务机器人发出“我要取款”语音指令为例,银行服务机器人可对用户发出的语音指令进行识别得到对应的待纠正文本,根据待纠正文本对应的拼音特征,可从如下表1中包含的拼音模式中选择目标拼音模式,进而根据目标拼音模式生成待纠正文本对应的初始拼音序列。在下面表1中,数字3、4等表示声调,数字3表示三声声调,数字4表示四声声调。
表1
拼音模式 | 示例:我要取款(文本) |
去声调拼音模式 | wo yao qu kuan |
带声调拼音模式 | wo3 yao4 qu3 kuan3 |
去声调且声母韵母分开的拼音模式 | /w o/y ao/q u/k uan |
带声调且声母韵母分开的拼音模式 | /w o 3/y ao 4/q u 3/k uan 3 |
仅使用首个声母或韵母的拼音模式 | w y q k |
韵母拼音细分的拼音模式 | w o y a o q u k u a n |
在本实施例中,提供至少一种拼音模式,可根据待纠正文本的拼音特征灵活选择更加适合的拼音模式,可以有针对性地解决文本纠正过程中诸如同音同声调、同音不同声调、同声母异韵母、同韵母异声母等错误类型。例如,在本实施例中,可以根据待纠正文本的拼音特征,选择带声调且声母韵母分开的拼音模式作为目标拼音模式;进而,按照带声调且声母韵母分开的拼音模式生成待纠正文本对应的初始拼音序列。例如,假设待纠正文本为:财产品哪个常见,则按照带声调且声母韵母分开的拼音模式生成的初始拼音序列为:/c ai2/ch an 3/p in 3/n a 3/g e 4/ch ang 2/j ian 4/。
在本申请实施例中,在得到初始拼音序列之后,并不是直接根据初始拼音序列进行文本纠正,而是在初始拼音序列中添加指定特征标识符得到带有目标特征标识符的目标拼音序列,以目标拼音序列为基础进行文本纠正。在本实施例中,并不限定指定特征标识符在初始拼音序列中的添加位置。例如,可以将指定特征标识符添加在初始拼音序列中首个字母前面,即在初始拼音序列前面添加指定特征标识符;或者,也可以将指定特征标识符添加在初始拼音序列中最后一个字母后面,即在初始拼音序列末尾添加指定特征标识符;或者,也可以将指定特征标识符添加在初始拼音序列中某个中间位置,即在初始拼音序列中间添加指定特征标识符。例如,以初始拼音序列为:c ai 2 ch an 3 p in 3 n a 3g e 4ch ang 2 j ian 4为例,则在初始拼音序列前面添加指定特征标识符的示例为:【标识符】cai 2 ch an 3 p in 3 n a 3 g e 4 ch ang 2 j ian 4,在初始拼音序列末尾添加指定特征标识符的示例为:c ai 2 ch an 3 p in 3 n a 3 g e 4 ch ang 2 j ian 4【标识符】,在初始拼音序列中间添加指定特征标识符的示例为:c ai 2 ch an 3【标识符】p in 3 n a3 g e 4 ch ang 2 j ian 4。
在本申请实施例中,指定特征标识符添加到初始拼音序列中,目的是为了标识对初始拼音序列或该初始拼音序列所表达的文本进行纠正所需的特征信息。根据应用场景的不同,智能机器的语音识别能力的不同,由语音识别得到的文本所需使用的指定特征标识符可以不同,可根据实际需求确定所需使用的指定特征标识符。例如,对于可能存在不同领域词汇冲突的语音识别场景,指定特征标识符可以包括表示待纠正文本所属领域场景的场景标识符,用以纠正不同领域内的词汇冲突问题。又例如,对于可能存在首字遗漏的语音识别场景,指定特征标识符可以包括表示待纠正文本可能需要添加首字的首字标识符,用以纠正首字遗漏问题。再例如,在另一些应用场景中,有可能既存在不同领域词汇冲突的问题,又存在首字遗漏的问题,则指定特征标识符既可以包括待纠正文本所属领域场景的场景标识符,又可以包括表示待纠正文本可能需要添加首字的首字标识符。在此说明,首字标识符仅表示待纠正文本有可能需要添加首字,并不表示待纠正文本一定遗漏了首字;对于确实遗漏首字的待纠正文本,拼音-文本预测模型输出的候选文本中可以添加首字;对于未遗漏首字的待纠正文本,拼音-文本预测模型输出的候选文本中可以带有不需要添加首字的标识信息,也可以不带有任何提示信息。
基于上述分析,在初始拼音序列中添加指定特征标识符时,可以在初始拼音序列中添加场景标识符和首字标识符中至少一个标识符,以得到目标拼音序列。例如,假设待纠正文本为:财产品哪个常见,其对应的初始拼音序列为:c ai 2 ch an 3 p in 3 n a 3 ge 4 ch ang 2j ian 4,则在初始拼音序列中添加场景标识符和首字标识后得到的目标拼音序列为:【BANK】【F】c ai 2 ch an 3 p in 3 n a 3 g e 4 ch ang 2 j ian 4;其中,【BANK】是场景标识符,在该示例中,表示待纠正文本所属的领域场景为银行场景;【F】是首字标识符,在该示例中,表示待纠正文本缺少首字,在纠正过程中需要为其添加首字。在该示例中,场景标识符和首字标识符的实现方式仅为示例,并不限于此。其中,含有场景标识符的目标拼音序列带有待纠正文本所属的领域场景的特征信息,该特征信息可用来纠正待纠正文本与其它领域词汇之间存在的冲突问题;含有首字标识符的目标拼音序列带有待纠正文本是否缺失首字的特征信息,该特征信息可用来纠正待纠正文本存在的首字遗漏问题。在此说明,本申请实施例并不限定指定特征标识符的表示方式,凡是能够将拼音序列与标识符区分开的标识符方式都适用于本申请实施例,例如可以采用中括号[]的方式表示标识符,也可以采用双引号“”的方式表示标识符。
在本申请实施例中,在得到目标拼音序列之后,可将目标拼音序列输入预先训练出的拼音-文本预测模型中进行文本预测,得到包含至少一个候选文本的候选文本集合。在本申请实施例中,如图1b所示,拼音-文本预测模型包括编码(Encoder)网络和解码(Decoder)网络;编码网络和解码网络可分别采用卷积神经网络(Convolutional NeuralNetwork,CNN),循环神经网络(Recurrent Neural Network,RNN)以及长短期记忆网络(Long Short-Term Memory,LSTM),Transformer等结构的网络实现。如图1b所示,编码网络的输入是目标拼音序列(场景标识符和/或首字标识符,X1,X2,…,Xn),X1,X2,…,Xn分别表示待纠正文本中的一个字符的拼音;编码网络的作用是将目标拼音序列编码为固定大小的第一特征向量,并将第一特征向量输出至解码网络。可选地,如图1b所示,编码网络可能包括多层,第一层用于按照字符对输入的目标拼音序列中各字符拼音进行向量化,得到每个字符拼音对应的特征向量并输出给其它层,其它层负责从语法、语义的角度对待纠正文本对应的拼音序列进行向量化,得到第一特征向量。解码网络得到编码网络提供的第一特征向量之后,对第一向量特征进行解码,输出第二特征向量(Y1,Y2,…,Yn)确,第二特征向量包括每个字符对应的特征向量,即Y1,Y2,…,Yn分别表示待纠正文本中每个字符对应的特征向量,该特征向量表示每个字符的输出概率。如图1b所示可知,解码网络的输入不仅包括编码网络输出的第一特征向量,还包括前面已输出的其它字符的特征向量。在得到第二特征向量之后,可根据第二特征向量得到至少一个候选文本形成候选文本集合。基于此,在将目标拼音序列输入拼音-文本预测模型之后,在拼音-文本预测模型中,利用编码网络将目标拼音序列编码为固定大小的第一特征向量;利用解码网络对第一特征向量进行解码,得到第二特征向量;根据第二特征向量,得到包含至少一个候选文本的候选文本集合。
在得到候选文本集合之后,可从候选文本集合中选择一个候选文本作为待纠正文本对应的纠正后文本。例如,假设待纠正文本为:财产品哪个常见,则经过上述处理过程后得到候选文本集合包括:[BANK][null]财产品那个常见,[BANK][null]财产品哪个常见,[BANK]理财产品那个常见,[BANK]理财产品哪个常见,[BANK][null]材产品哪个厂家,可以从中选择一个作为纠正后文本,例如可以从中选择[BANK]理财产品哪个常见,作为待纠正文本对应的纠正后文本。在本申请实施例中,并不限定从候选文本集合中选择纠正后文本的方式。例如,在一可选实施例中,首先,根据语言模型计算候选文本集合中各候选文本的得分,进一步,根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整,选择调整后得分最高的候选文本作为待纠正文本对应的纠正后文本。
其中,语言模型是用来计算一个句子的概率的模型,例如可以计算出每个候选文本中每个词汇可能出现的概率值,进而根据每个候选文本中各词汇可能出现的概率值,计算出每个候选文本可能出现的概率值,将每个候选文本可能出现的概率值作为每个候选文本的得分。在实际应用中,并不限定计算候选文本的得分的方式,对于每个候选文本中的每个词汇,其可能出现的概率值可以基于其前面所有词汇的概率值来计算。例如,假设S表示由一连串特定顺序排列的词W1,W2,...,Wn组成的候选文本,S在文本库中出现的概率P(S)=P(W1,W2,...,Wn)。利用条件概率公式,S出现的概率等于每个词出现的条件概率相乘,即公式P(S)=P(W1,W2,...,Wn)=P(W1)P(W2|W1)P(W3|W1,W2)…P(Wn|W1,W2,…,Wn-1)。其中,P(W1)表示词汇W1出现的概率值,P(W2|W1)表示在已知词汇W1出现的概率值的前提下,计算词汇W2出现的概率值。以此类推,即可计算出每个候选文本出现的概率值,即每个候选文本的得分。或者,可以基于N-gram算法来计算候选文本的得分。N-gram是一种采用统计方法根据前面(n-1)个词来预测第n个词的统计语言模型。以二元模型为例,假设一个词的出现仅依赖于它前面出现的一个词,即对于每个候选文本中的每个词汇,其出现的概率值可以基于其前面一个词汇出现的概率值来计算,例如,采用公式P(S)=P(W1)P(W2|W1)P(W3|W2)...P(Wn|Wn-1)。其中,P(Wi|Wi-1)=C(Wi-1,Wi)/C(Wi-1),C(Wi-1,Wi)即为词汇Wi和词汇Wi-1在语音模型所使用的词汇库中出现的次数,根据词汇Wi和Wi-1在语音模型所使用的词汇库中出现的次数即可计算出词汇Wi和Wi-1出现的概率值,进而,可计算出每个候选文本出现的概率值,即每个候选文本的得分。
在得到每个候选文本的得分之后,可选地,可以直接根据每个候选文本的得分,选择得分最高的候选文本作为待纠正文本对应的纠正后文本,但并不限于这种实施方式。在本实施例中,在得到每个候选文本的得分后,进一步,根据已知的领域关键词,确定包含领域关键词的候选文本;对包含领域关键词的候选文本的得分进行调整,这里的调整主要是增加包含领域关键词的候选文本的得分;进而,选择调整后得分最高的候选文本作为待纠正文本对应的纠正后文本。在此并不限定对包含领域关键词的候选文本的得分进行调整的方式,在实际应用中,可以根据已知的领域关键词,统计包含领域关键词的候选文本及其包含的领域关键词的数量,并根据包含领域关键词的候选文本所包含的领域关键词的数量,对包含领域关键词的候选文本的得分进行调整。例如,可以根据包含领域关键的候选文本所包含的领域关键词的数量,计算包含领域关键的候选文本对应的权重因子,将含有领域关键词的文本得分乘以对应的权重因子,得到新的分数,再对所有候选文本按照更新后的得分重新排序,将得分最高的文本作为待纠正文本对应的纠正后文本。可选地,可以采用公式score=score*(1+0.5*Ncount),调整含有领域关键词的候选文本得分,其中,Ncount表示候选文本中含有领域关键词的个数,1+0.5*Ncount代表含有领域关键词的候选文本对应的权重因子。当然,在实际应用中并不限于以上一种方式对包含领域关键词的候选文本进行调整。需要说明的是,在确定包含领域关键词的候选文本的情况下,也可以不根据其所包含的领域关键词的数量对其得分进行调整,而是直接从包含领域关键词的候选文本中,选择得分最高且包含领域关键词的候选文本作为待纠正文本对应的纠正后文本;或者,对含有领域关键词的候选文本进行对比,将所含领域关键词的文本中最符合当前语境的文本作为纠正文本对应的纠正后文本等,只要是能够筛选出最适合当前领域场景下的文本方式均使用于本申请实施例。另外,需要说明的是,已知的领域关键词可以存储在关键词词库中或关键词词典中,对此不做限定。
在本申请实施例中,在使用拼音-文本预测模型之前,可根据带有指定特征标识符的训练语料进行训练,得到拼音-文本预测模型。其中,训练拼音-文本预测模型的过程包括:获取训练语料,训练语料中包括文本语料和文本语料对应的拼音语料;在训练语料中的拼音语料中添加指定特征标识符;根据带有指定特征标识符的训练语料进行模型训练,得到拼音-文本预测模型。在本实施例中,指定特征标识符表示用来解决由语音识别得到的文本可能存在的问题所需的特征信息,基于添加指定特征标识符的训练语料进行模型训练,可得到具有纠错能力的拼音-文本预测模型,进而,使用具有纠错能力的拼音-文本预测模型进行文本预测,可以解决语音识别过程中存在的问题,进而输出克服相应文本的候选文本集合。
在本实施例中,并不限定在训练语料中添加的指定特征标识符的形式。例如,针对可能存在首字遗漏的语音识别场景,可以在训练语料中添加首字标识符,即指定特征标识符包括首字标识符,在该情况下,获取训练语料的过程包括:获取文本语料;将文本语料及其对应的正确拼音序列,生成标准训练语料;利用已知的模糊音,对标准训练语料中的正确拼音进行替换,得到模糊音训练语料;将标准训练语料和模糊音训练语料中的首字拼音去掉,得到首字遗漏训练语料。
关于获取文本语料:
在可能存在首字遗漏的语音识别场景中,并不对文本语料所属的领域场景进行限定,例如可以获取通用领域场景中的文本作为文本语料,也可以获取垂直领域场景中的文本作为文本语料,或者也可以同时获取通用领域场景和垂直领域场景中的文本作为文本语料。在此说明,对于可能存在领域词汇冲突的语音识别场景,可同时获取通用领域场景和垂直领域场景中的文本作为文本语料,相应地,也需要在训练语料中添加场景标识符。其中,通用领域场景中的文本语料规模相对较大,可以涵盖大部分的通用词汇,垂直领域场景中的文本语料料规模相对较小,通常只涵盖特定领域中的词汇,具有领域特点。在获取到文本语料后,对文本语料进行解析处理,得到对应的拼音序列和文本,并在对应的拼音序列中添加领域标识符,作为训练语料的输入,用于解决语音识别过程中,因不同领域导致的词汇冲突问题。对获取的文本语料进行示例性说明,例如我是福建人,理财产品哪个常见,我要取款等等。
在本申请实施例中,用于模型训练的训练语料是一种句对格式,即(拼音序列(输入),文本语料(输出))。每个训练语料中,拼音序列作为模型训练的输入(input),文本语料是模型训练的输出(output)。根据语音识别场景中可能存在的首字遗漏、混淆音等各种需要纠正的问题,在本申请一些可选实施例中,采用3种句对模式构成训练语料,分别是:标准训练语料、模糊音训练语料和首字遗漏训练语料,下面对这3种语料的生成过程分别进行详细说明。
关于标准训练语料的生成:标准训练语料是指由文本语料和其对应的正确拼音序列形成的训练语料,其句对结构为(正确拼音序列(输入),文本语料(输出))。可选地,在收集到文本语料后,可以对文本语料进行分词处理,再将分词结果转换为对应的拼音,得到文本语料对应的正确拼音序列,将两者组合在一起得到标准训练语料。以上述实施例中的文本语料“我是福建人”为例,其对应的标准训练语料为(w o 3 sh i 4 f u 2 j ian 4 r en2,我是福建人)。
关于模糊音训练语料的生成:模糊音训练语料是指利用已知的模糊音,对标准训练语料中的正确拼音进行替换得到的训练语料,其句对结构为(经模糊音替换的错误拼音序列(输入),文本语料(输出))。其中,已知的模糊音是通过对日常普遍存在的混淆发音以及对具体场景中的文本语料进行分析,整理得到的拼音语料。其中,常见的模糊音替换示例可参见下面表2。具体地,可利用已知的模糊音,对标准训练语料中正确拼音序列中的相关拼音进行模糊音替换,得到错误拼音序列,将错误拼音序列和文本语料组合在一起得到模糊音训练语料。例如,以上述实施例中的文本语料“我是福建人”为例,其对应的标准训练语料为(w o 3 sh i 4 f u 2 j ian 4 r en 2,我是福建人),进行模糊音替换后得到的模糊音训练语料为(w o 3 sh i 4 h u 2 j ian 4 r en 2,我是福建人)。
表2
通过利用已知的模糊音替换标准训练语料中的正确拼音,可以针对相同或近似发音的词汇进行纠正,解决相同或近似发音的词汇冲突,基于模糊音替换后的训练语料进行训练,得到的拼音-文本预测模型的预测准确度更高,则根据上述替换后的模糊音训练语料进行训练,可以预测文本语料对应的真正文本为:我是福建人。
关于首字遗漏训练语料的生成:首字遗漏训练语料是将标准训练语料和模糊音训练语料中的首字拼音去掉后得到的训练语料,其句对结构为(去掉首字拼音后的错误拼音序列,文本语料)。由于在语音识别场景中,常常受复杂的环境影响,导致出现首字遗漏的现象,因此,通过去掉文本语料对应的拼音序列中的首个拼音(包括声母和韵母),将剩下的拼音序列作为训练语料进行模型训练。例如,将上述实施例提到的文本语料“我是福建人”对应的标准训练语料中正确拼音序列去首字拼音后,得到的首字遗漏训练语料为(sh i 4 fu 2 j ian 4 r en 2,我是福建人),同理,将上述实施例提到的文本语料“我是福建人”对应的模糊音训练语料中错误拼音序列去首字拼音后,得到的首字遗漏训练语料为(sh i 4h u 2j ian 4 r en 2,我是福建人)。基于对标准训练语料和模糊音训练语料去首字拼音后形成的首字遗漏训练语料进行训练,得到的拼音-文本预测模型在预测时可以纠正语音识别过程中出现的首字遗漏问题,提升拼音-文本预测模型的预测准确度。根据上述替换后的首字遗漏训练语料进行训练,可以预测文本语料对应的真正文本为:我是福建人。
关于添加指定特征标识符的说明:在本申请实施例中,在训练语料中可以添加首字标识符和/或领域标识符,用来针对首字遗漏和/或领域词汇冲突这两种情况。首字标识符和领域标识符可以单独添加在训练语料的句首,也可以同时组合运用。以带声调拼音作为拼音语料使用的拼音模式为例,以上述提到的3种训练语料为例对添加指定特征标识符进行示例性说明。其中,表3单独使用了领域标识符,表4单独使用了首字标识符,表5同时使用了首字标识符和领域标识符。
其中,领域标识符用来表示训练语料所在的领域场景信息,如[BANK]代表银行领域,[MEDICAL]代表医疗领域,[COM]代表通用领域场景等。其中,首字标识符,在所有训练语料中(或模型训练输入时)保持一致,均用[F]表示,表示可能存在首字遗漏问题,或者表示可能需要添加首字;在模型训练输出时,使用[null]表示不需要添加首字,否则直接在首字位置加入缺省的文字。
表3
表4
表5
在本申请实施例中,在得到带有指定特征标识符的训练语料之后,可以根据带有指定特征标识符的训练语料进行模型训练,得到拼音-文本预测模型。可选地,一种模型训练的过程包括:利用通用领域场景对应的训练语料对预设的网络结构模型进行预训练,得到初始化模型;利用垂直领域场景对应的训练语料对初始化模型进行微调训练,得到拼音-文本预测模型。其中,通用领域场景对应的训练语料是指通用领域场景中的文本语料经过解析处理,生成的训练语料;垂直领域场景对应的训练语料是指垂直领域场景中的文本语料经过解析处理,生成的训练语料。由于通用领域场景中的文本语料规模相对较大,可以涵盖大部分的通用词汇,则基于生成的训练语料进行模型预测得到的预测结果较宽泛,可以预测绝大部分的通用文本内容;而垂直领域场景中的文本语料规模相对较小,通常只涵盖特定领域中的词汇,则基于生成的训练语料进行模型预测得到的预测结果能够预测具体领域中的文本内容,预测结果更具体,准确度较高。基于上述实施例中带有指定特征标识符的训练语料进行模型进行两轮训练的过程,得到的拼音-文本预测模型可以解决拼音转文本过程中存在的文本错误、文本遗漏以及不同领域内词汇冲突等问题,预测结果的准确度更高。
在本申请实施例中,并不限定预设网络结构模型的实现方式。在本实施例中,可以采用具有如图1b所示结构的屏蔽序列到序列预训练(Masked Sequence to Sequence Pre-training,MASS)模型,该模型实现方式可以采用上述实施例中提到的卷积神经网络(CNN),循环神经网络(RNN)以及长短期记忆网络(LSTM)等实现,以对训练语料进行预训练和微调训练,得到拼音-文本预测模型。其中,预训练是指基于大规模的通用领域场景语料对训练语料进行编码和解码,得到初始化模型的过程;微调训练是指基于小规模的垂直领域场景语料对训练语料进行编码和解码,得到拼音-文本预测模型的过程。
在上述实施例中,关于文本纠正的整个过程的实现方式不做限定,可根据智能机器的具体实现形态而定。例如,对于支持人机交互的智能机器而言,若其处理功能足够强大,内置有文本纠正模块和拼音-文本训练模型,则文本纠正的整个过程可以在智能机器端完成;若智能机器的处理功能不够强大,可依赖远程服务端,则文本纠正的过程可以在智能机器对应的远程服务端完成。下面结合具体场景实施例,对本申请实施例采用拼音转汉字的方式对文本纠正的整个过程进行详细说明:
场景实施例1:
以具有人机交互功能的自主服务机器是服务机器人为例,服务机器人内置有语音识别模块和文本纠正模块,该文本纠正模块采用拼音-文本训练模型进行文本纠正。当用户需服务机器人执行服务任务时,可以通过语音的形式对服务机器人发出语音指令。例如,服务机器人是银行服务机器人,用户在办理取款业务时需要登记取款信息,可对服务机器人发出“登记取款信息!”的语音指令。又例如,服务机器人可以是商场或超市服务机器人,用户在自助购物时想要确认果蔬区位置,可对服务机器人发出“果蔬区位置在哪?”的语音指令。服务机器人接收到该语音指令后,可通过内置的语音识别模块将用户的语音指令识别为文本,然后利用内置的文本纠正模块将语音识别模块识别出的文本作为待纠正文本进行纠正。具体地,文本纠正模块可生成待纠正文本的初始拼音序列,在初始拼音序列中添加首字标识符和/或场景标识符,得到目标拼音序列;将目标拼音序列输入拼音-文本训练模型对该目标拼音序列进行文本预测,得到纠正后的文本信息。之后,服务机器人可基于纠正后的文本信息理解用户的意图,继而根据用户的意图执行相应动作。例如,若理解出用户的意图是登记取款信息,则可在电子屏幕上向用户展示取款信息登记窗口,供用户登记取款信息;或者,以语音播报的形式向用户播报对应的人工取款窗口位置等。若理解出用户的意图是寻找果蔬区位置,则可在电子屏幕上向用户展示商场或超市的电子地图,并在该电子地图中标记出从当前位置到果蔬区位置的行进路线;或者,以语音播报形式向用户播报从当前位置去往果蔬区的路线等。
场景实施例2:
在本申请实施例中,若自主服务机器的处理能力不够强大,可依赖远程服务器完成人机交互的过程。自主服务机器内置有语音识别模块,文本纠正模块设置在远程服务器端,该文本纠正模块采用拼音-文本训练模型进行文本纠正。例如,以具有人机交互功能的自主服务机器是扫地机器人为例,当用户需要扫地机器人执行清扫任务时,可以通过语音的形式对扫地机器人发出“请清扫厨房和客厅”的语音指令。或者,当扫地机器人在执行清扫任务过程中电量过低时,可发出电量过低警报,用户听到该电量过低警报后,可通过语音的形式对扫地机器人发出“回充电座充电”的语音指令。扫地机器人接收到该语音指令后可通过内置的语音识别模块将用户的语音指令识别为文本,然后将文本信息上传至远程服务器端的文本纠正模块,文本纠正模块接收到该文本信息后可将其作为待纠正文本进行纠正。具体地,文本纠正模块可生成待纠正文本的初始拼音序列,在初始拼音序列中添加首字标识符和/或场景标识符,得到目标拼音序列;将目标拼音序列输入拼音-文本训练模型对该目标拼音序列进行文本预测,得到纠正后的文本信息。之后,服务器将纠正后的文本信息回传给扫地机器人,扫地机器人可基于纠正后的文本信息理解用户的意图,继而根据用户的意图执行相应动作。例如,若理解出用户的意图是让清扫厨房和客厅,则扫地机器人可先行移动至厨房在厨房中执行清扫任务,之后移动至客厅在客厅中执行清扫任务。若理解出用户的意图是让回充电座充电,则扫地机器人可记录当前清扫位置,并开始执行回充动作,逐渐向充电座移动,直至与充电座成功对接后,开始充电。
或者,扫地机器人在接收到用户发出的语音指令后,直接将语音指令上传到服务器端,由服务器端对语音指令进行语音识别并转换成文本;进而,服务器端的文本纠正模块接收到该文本信息后可将其作为待纠正文本进行纠正,并将纠正后的文本信息返回给扫地机器人。
在本申请实施例中,基于通用领域场景对应的文本语料和垂直领域场景中的训练语料,在训练语料中考虑首字遗漏以及领域词汇冲突等问题对应的特征信息进行有针对性的训练,可以得到具有纠错能力的拼音-文本预测模型,通过该拼音-文本预测模型对输入待纠正文本的带有特征标识符的拼音序列进行文本预测,可以解决在语音识别过程中存在的文本错误、首字遗漏以及不同领域词汇冲突等问题,得到准确的纠正后文本,大大提升了语音识别过程的准确度。
需要说明的是,上述实施例所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法也由不同设备作为执行主体。比如,步骤S1a至步骤S4a的执行主体可以为设备A;又比如,步骤S1a和S2a的执行主体可以为设备A,步骤S3a和S4a的执行主体可以为设备B;等等。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S1a、S2a等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图2为本申请实施例提供的一种文本纠正设备的结构示意图。本申请实施例提供的文本纠正设备100可以是具有人机交互功能的智能机器,例如,可以是服务机器人、扫地机器人等智能机器人,也可以是智能音箱、电视、手持终端等智能设备,还可以是无人驾驶汽车等;或者是与智能机器配合的服务器设备。
如图2所示,文本纠正设备100包括:处理器10以及存储计算机指令的存储器20。其中,处理器10和存储器20可以是一个或多个。
存储器20,主要用于存储计算机程序,这些计算机程序可被处理器10执行,致使处理器10控制文本纠正设备100实现相应功能、完成相应动作或任务。除了存储计算机程序之外,存储器20还可被配置为存储其它各种数据以支持在文本纠正设备100上的操作。这些数据的示例包括用于在文本纠正设备100上操作的任何应用程序或方法的指令。
存储器20,可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请实施例中,并不限定处理器10的实现形态,例如可以是但不限于CPU、GPU或MCU等。处理器10,可以看作是文本纠正设备100的控制***,可用于执行存储器20中存储的计算机程序,以控制文本纠正设备100实现相应功能、完成相应动作或任务。值得说明的是,根据文本纠正设备100实现形态以及所处于场景的不同,其所需实现的功能、完成的动作或任务会有所不同;相应地,存储器20中存储的计算机程序也会有所不同,而处理器10执行不同计算机程序可控制文本纠正设备100实现不同的功能、完成不同的动作或任务。
在一些可选实施例中,如图2所示,文本纠正设备100还可包括:通信组件40、电源组件50以及驱动组件60等其它组件。图2中仅示意性给出部分组件,并不意味着文本纠正设备100只包括图2所示组件。其中,驱动组件50可以包括驱动轮、驱动电机、万向轮等。进一步可选地,针对不同的应用需求,文本纠正设备100还可以包括显示器70和音频组件80等其他组件,在图2中以虚线框示例,可以理解为虚线框内的组件为可选组件,而非必选组件,具体可视文本纠正设备100的产品形态而定。若文本纠正设备100具有人机交互功能的是扫地机器人,则文本纠正设备100还可以包括集尘桶和地刷组件等,在此不做过多说明。
在本申请实施例中,当处理器10执行存储器20中的计算机程序时,以用于:获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
在一可选实施例中,处理器10在获得目标拼音序列时,用于:在初始拼音序列中添加场景标识符和首字标识符中至少一个标识符,得到目标拼音序列;其中,场景标识符表示待纠正文本所属的领域场景,用以纠正不同领域内的词汇冲突;首字标识符表示待纠正文本可能需要添加首字,用以纠正首字遗漏问题。
在一可选实施例中,处理器10在选择待纠正文本对应的纠正后文本时,用于:根据语言模型计算候选文本集合中各候选文本的得分;根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整;选择调整后得分最高的候选文本作为待纠正文本对应的纠正后文本。
在一可选实施例中,处理器10还用于:获取训练语料,训练语料包括文本语料及其对应的拼音语料;在训练语料中的拼音语料中,添加指定特征标识符;根据带有指定特征标识符的训练语料进行模型训练,得到拼音-文本预测模型。
在一可选实施例中,若指定特征标识符包括首字标识符,则处理器10在获取训练语料时,用于:获取文本语料;将文本语料及其对应的正确拼音序列,生成标准训练语料;利用已知的模糊音,对标准训练语料中的正确拼音进行替换,得到模糊音训练语料;将标准训练语料和模糊音训练语料中的首字拼音去掉,得到首字遗漏训练语料。
在一可选实施例中,若指定特征标识符还包括场景标识符,则处理器10在获取文本语料时,用于:获取通用领域场景和垂直领域场景中的文本语料。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序被处理器执行时,致使处理器至少实现以下动作:获取待纠正文本,待纠正文本是对语音信号进行语音识别得到的;生成待纠正文本对应的初始拼音序列,并在初始拼音序列中添加指定特征标识符得到目标拼音序列;将目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;拼音-文本预测模型是根据带有指定特征标识符的训练语料训练得到的;从候选文本集合中,选择待纠正文本对应的纠正后文本。
上述图2中的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,通信组件还可以包括近场通信(NFC)模块,射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术等。
上述图2中的显示器包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。
上述图2中的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理***,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
上述图2中的音频组件,可被配置为输出和/或输入音频信号。例如,音频组件包括一个麦克风(MIC),当音频组件所在设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器或经由通信组件发送。在一些实施例中,音频组件还包括一个扬声器,用于输出音频信号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (16)
1.一种文本纠正方法,其特征在于,包括:
获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;
生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;
将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;
从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
2.根据权利要求1所述的方法,其特征在于,生成所述待纠正文本对应的初始拼音序列,包括:
根据所述待纠正文本的拼音特征,从至少一种拼音模式中选择目标拼音模式;
根据所述目标拼音模式,生成所述待纠正文本对应的初始拼音序列;
所述至少一种拼音模式包括去声调拼音模式、带声调拼音模式、去声调且声母韵母分开的拼音模式、带声调且声母韵母分开的拼音模式、仅使用首个声母或韵母的拼音模式以及韵母拼音细分的拼音模式中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,在所述初始拼音序列中添加指定特征标识符得到目标拼音序列,包括:
在所述初始拼音序列中添加场景标识符和首字标识符中至少一个标识符,得到目标拼音序列;
其中,所述场景标识符表示所述待纠正文本所属的领域场景,用以纠正不同领域内的词汇冲突;所述首字标识符表示所述待纠正文本可能需要添加首字,用以纠正首字遗漏问题。
4.根据权利要求1所述的方法,其特征在于,将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合,包括:
在所述拼音-文本预测模型中,利用编码网络将所述目标拼音序列编码为固定大小的第一特征向量;
利用解码网络对所述第一特征向量进行解码,得到第二特征向量;
根据所述第二特征向量,得到包含至少一个候选文本的候选文本集合。
5.根据权利要求1所述的方法,其特征在于,从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本,包括:
根据语言模型计算所述候选文本集合中各候选文本的得分;
根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整;
选择调整后得分最高的候选文本作为所述待纠正文本对应的纠正后文本。
6.根据权利要求5所述的方法,其特征在于,根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整,包括:
根据已知的领域关键词,统计包含领域关键词的候选文本及其包含的领域关键词的数量;
根据包含领域关键词的候选文本所包含的领域关键词的数量,对包含领域关键词的候选文本的得分进行调整。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
获取训练语料,所述训练语料包括文本语料及其对应的拼音语料;
在所述训练语料中的拼音语料中,添加指定特征标识符;
根据带有所述指定特征标识符的训练语料进行模型训练,得到所述拼音-文本预测模型。
8.根据权利要求7所述的方法,其特征在于,若所述指定特征标识符包括首字标识符,则获取训练语料,包括:
获取文本语料;
将所述文本语料及其对应的正确拼音序列,生成标准训练语料;
利用已知的模糊音,对所述标准训练语料中的正确拼音进行替换,得到模糊音训练语料;
将所述标准训练语料和所述模糊音训练语料中的首字拼音去掉,得到首字遗漏训练语料。
9.根据权利要求8所述的方法,其特征在于,若所述指定特征标识符还包括场景标识符,则所述获取文本语料包括:获取通用领域场景和垂直领域场景中的文本语料。
10.根据权利要求9所述的方法,其特征在于,根据带有所述指定特征标识符的训练语料进行模型训练,得到所述拼音-文本预测模型,包括:
利用通用领域场景对应的训练语料对预设的网络结构模型进行预训练,得到初始化模型;
利用垂直领域场景对应的训练语料对所述初始化模型进行微调训练,得到所述拼音-文本预测模型。
11.根据权利要求10所述的方法,其特征在于,所述网络结构模型是屏蔽序列到序列预训练MASS模型。
12.一种文本纠正设备,其特征在于,包括:处理器以及存储有计算机程序的存储器;
所述处理器,用于执行所述计算机程序,以用于:
获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;
生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;
将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;
从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
13.根据权利要求12所述的文本纠正设备,其特征在于,所述处理器在获得目标拼音序列时,用于:
在所述初始拼音序列中添加场景标识符和首字标识符中至少一个标识符,得到目标拼音序列;
其中,所述场景标识符表示所述待纠正文本所属的领域场景,用以纠正不同领域内的词汇冲突;所述首字标识符表示所述待纠正文本可能需要添加首字,用以纠正首字遗漏问题。
14.根据权利要求12所述的文本纠正设备,其特征在于,所述处理器在选择所述待纠正文本对应的纠正后文本时,用于:
根据语言模型计算所述候选文本集合中各候选文本的得分;
根据已知的领域关键词,对包含领域关键词的候选文本的得分进行调整;
选择调整后得分最高的候选文本作为所述待纠正文本对应的纠正后文本。
15.根据权利要求12-14任一项所述的文本纠正设备,其特征在于,所述处理器还用于:
获取训练语料,所述训练语料包括文本语料及其对应的拼音语料;
在所述训练语料中的拼音语料中,添加指定特征标识符;
根据带有所述指定特征标识符的训练语料进行模型训练,得到所述拼音-文本预测模型。
16.一种存储有计算机程序的计算机可读存储介质,其特征在于,当所述计算机程序被处理器执行时,致使所述处理器至少实现以下动作:
获取待纠正文本,所述待纠正文本是对语音信号进行语音识别得到的;
生成所述待纠正文本对应的初始拼音序列,并在所述初始拼音序列中添加指定特征标识符得到目标拼音序列;
将所述目标拼音序列输入拼音-文本预测模型进行文本预测,得到候选文本集合;所述拼音-文本预测模型是根据带有所述指定特征标识符的训练语料训练得到的;
从所述候选文本集合中,选择所述待纠正文本对应的纠正后文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010544358.6A CN113807080A (zh) | 2020-06-15 | 2020-06-15 | 文本纠正方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010544358.6A CN113807080A (zh) | 2020-06-15 | 2020-06-15 | 文本纠正方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113807080A true CN113807080A (zh) | 2021-12-17 |
Family
ID=78944169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010544358.6A Pending CN113807080A (zh) | 2020-06-15 | 2020-06-15 | 文本纠正方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807080A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226767A1 (zh) * | 2022-05-23 | 2023-11-30 | 支付宝(杭州)信息技术有限公司 | 模型训练方法和装置及语音含义的理解方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1391209A (zh) * | 2001-06-11 | 2003-01-15 | 株式会社日立制作所 | 话音合成方法以及执行此方法的话音合成器 |
US20070219776A1 (en) * | 2006-03-14 | 2007-09-20 | Microsoft Corporation | Language usage classifier |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110428822A (zh) * | 2019-08-05 | 2019-11-08 | 重庆电子工程职业学院 | 一种语音识别纠错方法及人机对话*** |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
-
2020
- 2020-06-15 CN CN202010544358.6A patent/CN113807080A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1391209A (zh) * | 2001-06-11 | 2003-01-15 | 株式会社日立制作所 | 话音合成方法以及执行此方法的话音合成器 |
US20070219776A1 (en) * | 2006-03-14 | 2007-09-20 | Microsoft Corporation | Language usage classifier |
CN110110041A (zh) * | 2019-03-15 | 2019-08-09 | 平安科技(深圳)有限公司 | 错词纠正方法、装置、计算机装置及存储介质 |
CN110428822A (zh) * | 2019-08-05 | 2019-11-08 | 重庆电子工程职业学院 | 一种语音识别纠错方法及人机对话*** |
CN110765763A (zh) * | 2019-09-24 | 2020-02-07 | 金蝶软件(中国)有限公司 | 语音识别文本的纠错方法、装置、计算机设备和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023226767A1 (zh) * | 2022-05-23 | 2023-11-30 | 支付宝(杭州)信息技术有限公司 | 模型训练方法和装置及语音含义的理解方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111191016B (zh) | 一种多轮对话处理方法、装置及计算设备 | |
CN109616108B (zh) | 多轮对话交互处理方法、装置、电子设备及存储介质 | |
CN110473531B (zh) | 语音识别方法、装置、电子设备、***及存储介质 | |
US20210142794A1 (en) | Speech processing dialog management | |
CN110415679B (zh) | 语音纠错方法、装置、设备和存储介质 | |
JP5706384B2 (ja) | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム | |
US20190221208A1 (en) | Method, user interface, and device for audio-based emoji input | |
CN101313276A (zh) | 将语音和备选项输入形式组合到移动设备中 | |
KR20170034227A (ko) | 음성 인식 장치 및 방법과, 음성 인식을 위한 변환 파라미터 학습 장치 및 방법 | |
CN106997342B (zh) | 基于多轮交互的意图识别方法和装置 | |
CN110910903B (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN113035231B (zh) | 关键词检测方法及装置 | |
CN109767758B (zh) | 车载语音分析方法、***、存储介质以及设备 | |
CN108417222B (zh) | 加权有限状态变换器解码***以及语音识别*** | |
KR102408308B1 (ko) | 센서 변환 집중 네트워크 모델 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
US11200885B1 (en) | Goal-oriented dialog system | |
CN110021293A (zh) | 语音识别方法及装置、可读存储介质 | |
US11216497B2 (en) | Method for processing language information and electronic device therefor | |
CN110175242B (zh) | 基于知识图谱的人机交互联想方法、装置及介质 | |
CN113807080A (zh) | 文本纠正方法、设备及存储介质 | |
CN110991155B (zh) | 文本修正方法、设备及介质 | |
CN113393841A (zh) | 语音识别模型的训练方法、装置、设备及存储介质 | |
US20210337274A1 (en) | Artificial intelligence apparatus and method for providing visual information | |
CN116150324A (zh) | 对话模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |