CN107305768A

CN107305768A - 语音交互中的易错字校准方法

Info

Publication number: CN107305768A
Application number: CN201610248440.8A
Authority: CN
Inventors: 黄亦睿; 刘功申; 苏波; 刘春梅; 李建华
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2017-10-31
Anticipated expiration: 2036-04-20
Also published as: CN107305768B

Abstract

本发明提供了一种语音交互中的易错字校准方法，包括：识别语境步骤、基于限制语义的自动纠错步骤、基于语义反馈的人工纠错步骤。本发明通过与用户语音交互，感知、识别话题语境，从而在受限语义范围内，利用命名实体识别技术，对含有特定意义的实体实现自动纠错功能，并支持通过人工反馈获得附加语义进而纠错，实现比现有语音识别软件更高的输入效率以及更方便的错字修正方式。

Description

语音交互中的易错字校准方法

技术领域

本发明涉及易错字校准技术，具体地，涉及语音交互中的易错字校准方法，尤其是将自然语言理解方法应用于语音交互易错字的校准与纠正中，实现了一个可用的语音交互易错字校准方案。

背景技术

语音交互作为一种人机交互的新途径，近年来，获得了突飞猛进的广泛应用。这首先源于语音识别技术的发展，从隐马尔科夫模型(Hidden Markov Model,HMM)、混合高斯模型(Gaussian Mixture Model,GMM)到现在的深度神经网络模型(DeepNeural Network,DNN)，语音识别***的错误率大幅下降；其次，智能设备用户的使用习惯尚未成型，新技术如语音交互容易被大众接受；而云计算、移动互联网的超常规发展使得大量的全新语料资源产生进而助推了语音识别技术的发展。

在很多场景下，语音交互具有更加现实的实用价值，符合人类的交互***，语音识别技术也必须在很多方面取得突破性进展。

经对现有技术文献的检索发现，中国专利文献号CN201210584746.2，公开号CN103021412A，记载了一种“语音识别方法和***”，该技术包括：对用户输入的语音信号进行语音识别，获得语音识别结果以及语音识别结果中各字符对应的语音片段；接收用户单独输入的纠错信息并生成纠错字符串；根据纠错字符串确定用户输入的语音信号中产生识别错误的语音段；根据语音识别结果中各字符对应的语音片段，确定产生识别错误的语音段在语音识别结果中所对应的字符串，作为错误字符串；利用纠错字符串替换错误字符串。该技术实现一种错误字符串纠错方法，但纠错字符串的录入需要使用特殊按键后方可录入，或使用拼音、手写等其他方式录入。其中语音录入方式仅可重复之前录入内容，以期达到修正错误识别的目的；但若用户录入的字词未被***所录入，则该方案将无法正确纠正。

中国专利文献号CN201310589827.6，公开号CN103680505A，记载了一种“语音识别方法及***”，该方法包括：持续接收录音输入；利用小词汇量语音识别网络对所述录音进行语音识别，以检查所述录音中是否包含预设的关键词；如果所述录音中包含所述关键词，则利用大词汇量语音识别网络对所述关键词后的录音进行识别，得到识别结果。该技术解决了长时间监听命令时的识别准确率问题，可由小词汇量网络顺利过渡至正常的语音识别阶段，即文中所述的大词汇量网络。但该技术并未对大词汇量网络进行优化，如限制语境下的语义增强等，且未提到相关的易错字校准技术。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种语音交互中的易错字校准方法。本发明使用现有语音识别API(Application Programming Interface,应用程序编程接口)，完成一个可用的有价值的易错字校准***。该***通过与用户语音交互，感知、识别话题语境，从而在受限语义范围内，利用命名实体识别技术，对含有特定意义的实体实现自动纠错功能，并支持通过人工反馈获得附加语义进而纠错，实现比现有语音识别软件更高的输入效率以及更方便的错字修正方式。

根据本发明提供的一种语音交互中的易错字校准方法，包括：

识别语境步骤：针对不同的领域创建相应的语境知识库，构造语境知识库的步骤包括：首先根据领域的关键词，通过搜索引擎得到相关文档，作为该领域的语料库；然后根据语义知识，获取该领域的核心词，按照核心词聚类得到该领域的实例句子，从而构建了语境知识库。

优选地，在识别语境步骤中，依据文本句子与语境知识库中不同领域的语境相似度来判断，作为自动纠错的前提；其中，语境相似度的具体算法如下：

S1：统计文本句子A中每个词语出现的次数，并表示成向量形式；

S2：按照余弦相似度计算公式，计算文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值，作为基于向量的词形相似度；

S3：将文本句子A的所有词语转为拼音形式，统计文本句子A中每个不同拼音序列出现的次数，表示成向量形式，计算以拼音形式表示的文本句子A与语境Ci中向量形式的每一个实例句子B这两个向量之间向量夹角的余弦值，得到基于向量的拼音相似度；

S4：通过对拼音相似度和词形相似度赋予不同权重，计算文本句子A与每一个实例句子B的句子相似度，并选择句子相似度最大的值，作为文本句子A与语境Ci的句子相似度；

S5：计算文本句子A与语境Ci的核心词匹配率，即文本句子A中含有语境Ci中所有核心词的数量占文本句子A中所有词语数量的百分比；

S6：通过对句子相似度和核心词匹配率赋予不同权重，计算文本句子A与语境Ci的语境相似度；

S7：计算文本句子A与语境Ci基于前文语境的平滑语境相似度SmoothContextSim(A,C_i)：

SmoothContextSim(A,C_i)＝λ₁·ContextSim(A_-2,C_i)

+λ₂·ContextSim(A_-1,C_i)

+λ₃·ContextSim(A,C_i)

λ₁+λ₂+λ₃＝1

λ₁≤λ₂≤λ₃

其中，A,A_-1,A_-2分别表示当前文本句子、当前文本句子的前第一句、当前文本句子的前第两句；λ₁,λ₂,λ₃是常数；ContextSim(X,Y)表示文本句子X与语境Y的语境相似度。

优选地，还包括：

基于限制语义的自动纠错步骤：获取用户语音输入的文本句子中的待纠错地名，对待纠错地名进行差错纠错。

优选地，所述基于限制语义的自动纠错步骤，包括：

文本句子读取步骤：读入用户语音输入的文本句子P，P＝P₁P₂...P_i...P_n；其中，p_i表示文本句子中的第i个汉字，n表示文本句子的长度；

待纠错地名获取步骤：扫描P，根据地名匹配规则进行匹配，得到待纠错地名；

差错纠错步骤：将待纠错地名与地名库中的所有地名进行短文本相似度匹配，得到与待纠错地名最相似的地名，作为查错纠错后的正确地名。

优选地，地名匹配规则包括如下任一个规则：

规则一：如果W_l属于左边界字的集合，W_r属于右边界字的集合，W_p的字数W_p.len大于1，则将W_p识别为待纠错地名；

规则二：如果W_l于左边界字的集合，W_r属于地名后缀的集合，则将由W_p、W_r构成的字串识别为待纠错地名；

规则三：如果W_l属于地名后缀的集合，W_r属于右边界字的集合，W_p的字数大于1，则将W_p识别为待纠错地名；

规则四：如果W_l属于地名后缀的集合，W_r地名后缀的集合，则将由W_p、W_r构成的字串识别为待纠错地名；

其中，W_l是待纠错词的前一个词，W_p是待纠错词，W_r是待纠错词的后一个词。

优选地，在基于限制语义的自动纠错步骤中，采用带权重的最长公共子序列算法来计算短文本相似度匹配；所述带权重的最长公共子序列算法，是指：两序列的任意两元素之间存在相似度函数，寻找两序列中相似度之和最大的公共子序列，其中，相似度函数定义为两拼音之间的拼音相似度。

优选地，所述拼音相似度，是指：分别计算两拼音中声母的相似度、两拼音中韵母的相似度，并对音节混用的情况分别赋予相应的相似度。

优选地，还包括：

基于语义反馈的人工纠错步骤：根据语音输入的更正句式进行纠错；其中，更正句式的形式包括：

第一形式：修改，字A是词B的字C；

第二形式：修改，第N个字A是词B的字C；

其中，字A与字C为同一个字，记为指示字；词B是包含字A与字C的一个成语或词组，记为更正词；

指示字的拼音与已输入文本中的错字拼音相同，也与更正词中正确字的拼音相同；

根据指示字，从更正词中提取正确字作为更正字进行替换。

与现有技术相比，本发明具有如下的有益效果：

第一，本发明三阶段的易错字校准技术可广泛适用于各类语音识别***和语音交互设备，既可共同使用，也可单独应用，以增强单一方面的易错字纠正能力。

第二，本发明的语境识别功能可应用于通用化语音录入***中，可根据用户输入上下文，识别相应语境，并提高该语境下的各类词语权重，以提高识别正确率。

第三，本发明的基于语音车载导航语境下的自动纠错功能可提高道路名称、地点等命令实体的识别正确率，减少司机与导航设备的交互、修正频率，提高驾驶安全性。

第四，本发明的人工语义反馈的自动纠错功能可应用于长时间、大量文本录入的场景下，使用自然流畅的命令语音，实现前文录入信息的纠错。该功能符合国人语言文化习惯，无需额外的点击，即可实现纯语音的文本录入。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的基本框架示意图。

图2为本发明的整体校准流程示意图。

图3为本发明的识别语境流程示意图。

图4为本发明的自动纠错流程示意图。

图5为本发明的人工纠错流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

本发明提出了一系列语音交互中的易错字校准技术，将自然语言理解方法应用于语音交互易错字的校准和纠正中，实现一个综合性语音交互易错字校准***。***包括如下功能：

第一，基于上下文语境的语义增强。在特定的数个语境下，***通过分析用户录入的语音，感知、识别话题语境，理解用户的交互需求。

第二，基于限制语义的自动纠错。***通过对语音交互的情景加以限制，在受限语义的上下文环境中，利用语言特征来针对性地提高语音识别的正确率。

第三，基于语音交互的人工语义增强。要求用户主动通过附加语义与***语音交互，在交互***中对重点词语进行语义技术增强，从而引导计算机准确理解用户意图并做出相应的反馈。

具体地，本发明基于现有的语音识别API，完成一个可用的有价值的语音交互易错字校准***。该***通过与用户语音交互，感知、识别话题语境，从而在受限语义范围内，利用命名实体识别技术，对含有特定意义的实体实现自动纠错功能，并支持通过人工反馈获得附加语义进而纠错，实现比现有语音识别软件更高的输入效率以及更方便的错字修正方式。图1描述了本发明的基本框架，图2描述了本发明的整体校准流程。

本发明提供的语音交互中的易错字校准方法，包括步骤：

第一步，识别语境步骤

识别语境的首要前提在于针对不同的领域创建相应的语境知识库。构造每个领域的语境知识库的流程如下：首先根据选定领域的关键词，通过搜索引擎得到大量相关文档，作为该领域的语料库。然后根据语义知识，人工获取该领域的核心词，按照核心词手工聚类得到该领域的实例句子，从而构建了语境知识库。

在识别语境步骤中，主要依据文本句子与语境知识库中不同领域的语境相似度来判断，作为自动纠错的前提。

其中，语境相似度的具体算法如下：

S2：按照余弦相似度计算公式，计算文本句子A与语境Ci中每一个向量形式的实例句子B这两个向量之间向量夹角的余弦值，作为基于向量的词形相似度；

S3：将文本句子A的所有词语转为拼音形式，统计文本句子A中每个不同拼音序列出现的次数，表示成向量形式，计算文本句子A与语境Ci中每一个向量形式的实例句子B这两个向量之间向量夹角的余弦值，得到基于向量的拼音相似度；

S4：通过对拼音相似度和词形相似度赋予不同权重，计算文本句子A与每一个实例句子B的句子相似度，并选择相似度最大的值，作为文本句子A与语境Ci的句子相似度；

SmoothContextSim(A,C_i)＝λ₁·ContextSim(A_-2,C_i)

+λ₂·ContextSim(A_-1,C_i)

+λ₃·ContextSim(A,C_i)

λ₁+λ₂+λ₃＝1

λ₁≤λ₂≤λ₃

其中，A,A_-1,A_-2分别表示当前文本句子、当前文本句子的前第一句、当前文本句子的前第两句；λ₁,λ₂,λ₃是常数；ContextSim(X,Y)表示文本句子X与语境Y的语境相似度；

在本发明测试中，选取λ₁＝0.1,λ₂＝0.2,λ₃＝0.7。图3给出了识别语境的大体流程。

第二步，基于限制语义的自动纠错步骤

本发明优选地将语音交互情景应用在车载导航***中，因此，在本发明的优选例中，语料库是一个保存着正确路名、地名、机构名的细胞词库。

首先，本发明基于对车载导航***中地名构成、语境规律的分析，定义了下列集合：

地名后缀的集合PlaceTailWord，如“市”、“县”、“路”、“区”、“村”等。

左边界字的集合LeftBorderWord：如“到”、“去”、“往”、“从”、“位于”、“距离”、“靠近”等。

右边界字的集合RightBorderWord：如“附近”、“周围”、“旁边”等。

AsPlace(S)表示将S识别为待纠错地名。

将由W_l、W_p、W_r构成的字串记为W_l是待纠错词的前一个词，W_p是待纠错词，W_r是待纠错词的后一个词。

具体的地名匹配规则定义如下：

即(W_l∈LeftBorderWord)&&(W_r∈RightBorderWord)&&(W_p.len＞1)→AsPlace(W_p)

即

即(W_l∈PlaceTailWord)&&(W_r∈RightBorderWord)&&(W_p.len＞1)→AsPlace(W_p)

即

命名实体的识别建立在分词结果的基础上，一旦没有正确地分词，命名实体识别的正确率将会大大降低。为了解决分词带来的错误识别，本发明将每一个词切分为一个个字，以字为单位进行命名实体识别。

具体算法如下：

在自动纠错阶段，本发明主要利用常见地名库中的地名对语音识别结果进行校准和确认。换句话说，将按规则提取出的待纠错地名与常见地名库中的地名进行短文本比较，得到相同或最相似的一个用来进行替换待纠错地名以实现查错纠错。

在基于限制语义的自动纠错步骤中，采用带权重的最长公共子序列算法来计算短文本相似度匹配；所述带权重的最长公共子序列算法，是指：两序列的任意两元素之间存在相似度函数，寻找两序列中相似度之和最大的公共子序列，其中，相似度函数定义为两拼音之间的拼音相似度。

本发明的短文本比较算法是以拼音为单位实现的，考虑到拼音中声母、韵母的组成结构差别较大，在进行拼音相似度计算时，需要对声母、韵母两部分分别计算相似度。两个不同拼音中，一旦声母或韵母完全相同，则赋予0.5的相似度；若声母或韵母相似(如平翘舌音、前后鼻音等)，即赋予0.25的相似度。

在此基础上，本发明采用带权重的最长公共子序列算法，以字为单位计算候选地名A与常见地名库中地名B的拼音相似度，利用动态规划思想，计算A与B的最长公共子序列。

设用二维数组WLCS[i,j]表示字符串A＝a₀a₁...a_n中第i位字符和字符串B＝b₀b₁...b_m中第j位字符之前带权重的最长公共子序列，则有

其中，0≤i≤n，0≤j≤m。SimPY(ai,b_j)表示字符串A的第i位字符与字符串B的第j位字符的拼音相似度，利用前文的拼音相似度算法计算得到。

字符串A和B的相似度SimWLCS(A,B)可由下述公式计算得来：

其中，WLCS(A,B)表示字符串A、B中各相应位最长公共子序列相似度之和；maxlan(A,B)表示字符串A、B中字符长度的最大值。

第三步，基于语义反馈的人工纠错步骤

人工语义反馈的语音交互方案的基本模式为，语音识别***持续地接收用户发出的语音，并进行识别、处理。在一般情况下，用户正常使用语音进行文字录入，当用户认为某个字出现识别错误时，则可以使用语音进行修正，修正的简单句式为“修改，吴是口天吴的吴”，***则会自动识别该语音录入模式为更正模式，进入本***的反馈、更正流程，从更正句式中提取更正信息，并修改之前对应的错字。如果还有其它错字，用户可以重复上述反馈流程，直至更正满意，再进行之后的录入，那么之前录入的文本默认地被用户所确认，不再接受修正。

具体地，用户进行语音输入文本句子时，当输入文本与用户所期待的结果不一致时，用户可以继续通过语音，讲出更正句式，更正句式有两种形式：

第一种形式：修改，A是B的C。

第二种形式：修改，第N个A是B的C。

其中，A与C理应为同一个字，称为“指示字”；B是包含A与C的一个成语或词组，称为“更正词”。指示字在通常情况下，其拼音与已输入文本中的错字拼音相同，也与更正词中正确字的拼音相同。指示字的存在建立起错误字与更正字之间的联系，根据指示字，可以从更正词中提取正确的更正字，在前文中查找错误字，并使用更正字进行替换。例如：

用户语音输入：我叫黄亦睿。

语音识别结果：我叫黄一睿。

其中“一”字被用户认为是错误录入。用户可以继续使用语音，说出更正句式“修改，亦是不亦乐乎的亦”。此时，A、C部分的亦字为指示字，“不亦乐乎”为更正词。***将启动纠错流程，使用“亦”字，替换错误的“一”，从而在屏幕上显示正确的结果“我叫黄亦睿”。

为了避免用户录入文本出现多个发音相同的字而无法选择对其中之一进行修正，需要用户主动说出出错字的具体次序。可以借助第二种形式的更正句式，使用N部分提供的数字，如“第二个A是B的C”，精确出错字的位置，避免多个同音字带来混淆，来修正前文第二个与指示字同音的汉字。

在修改句式中，指示字部分，一方面，通过拼音，在更正词部分查找拼音对应的汉字，作为正确的更正字；另一方面，通过拼音，在前文中寻找对应的汉字位置，使用更正字进行替换，从而完成错误文本的修正。

查找更正字的具体步骤如下：

步骤(1)：将更正句子转换为拼音序列，并根据关键字切分得到指示字与更正字。如将“亦是不亦乐乎的亦”转换为拼音序列[yi shi bu yi le hu de yi]，通过“shi”，“de”这些关键字切分得到指示字A、更正词B、指示字C的内容，分别为“yi”，[buyi le hu]，“yi”。

步骤(2)：判断指示字A与C是否相同，若相同则查找指示字在更正词中的位置。即“yi”在[bu yi le hu]中的位置下标为2(从1开始)。

步骤(3)：在进行专用知识库或API匹配的过程中，根据位置信息得到指示字拼音在更正词中对应的汉字，作为正确的更正字。这里，不亦乐乎中的“亦”为更正字。

步骤(4)：根据更正字的拼音查找上一句中出错字的位置，将出错字替换为更正字，从而达到纠正出错字的功能。

在进行语音反馈与修正中，人们常常采用不易重复的词语对更正字进行组词，如常见词语、成语、名人姓名或专为描述汉字的常用词组。

汉语中存在不少专有名词，其中各字都是一些词语的缩写，如“编程”，可用“编写的编”，“路程的程”来描述。

同时，汉语中还有一个常见现象，即使用偏旁部首来描述一个字，常见于姓氏或不易组词的描述中，如“草头黄”、“古月胡”等。

下表列举了描述汉字的几种情况：

表1描述汉字的几种情况

对于成语、名人姓名和常见词语，现有语音识别API均可以正确识别，即可以得到准确的更正词。但对于描述汉字型词语，由于不属于常用词，现有语音识别API并不能全部正确识别。对此，本发明引入了基于惯用语的专用知识库，以提高这类词语的识别正确率。

知识库的每一条记录所代表的待纠错字，都属于常见易错字范畴，储存着专有名词与其拼音的映射，如：

li zao zhang:立早章

gong chang zhang:弓长张

在使用语音识别API识别用户输入，得到修正句式后，***提取更正词部分的汉字，将其转换为拼音序列，使用该拼音序列，在知识库中寻找匹配的拼音序列，将拼音序列对应的汉字词语，替换更正词部分原有的识别结果，作为新的更正词部分。如果用户的更正词无法匹配到本地知识库时，***将根据原有的API识别结果来提取，假如，用户的修改语句为“瞿是瞿秋白的瞿”，若本地知识库中不存在对应的记录，而API又能准确识别出瞿秋白时，***也能做到用“瞿”来纠正错字。

另外，在语音识别中，由于录入者的口音或噪声干扰，识别结果并非用户所想，尤其在单字录入时。即使用户字正腔圆地录入单字，由于口音的存在，加之单字没有上下文词语的辅助，往往很难识别为用户实际说出的字，如“牛”与“刘”，“胡”与“福”，以及平卷舌音和前后鼻音的误差问题。在本发明中，指示字部分就是单字识别的结果，根据更正字提取的流程，如果更正词部分识别正确，但指示字部分被识别成常见的模糊音别字，如“牛奶的刘”等，此时使用拼音liu在拼音序列[niu,nai]中查找，无法匹配到结果。这需要在查找时加入模糊音，以提高更正成功率。

以上段中的“牛奶的刘”为例，我们构造了拼音liu的模糊音数组[liu,niu]，依次使用数据中的元素在拼音序列[niu,nai]中进行查找。对于存在多种模糊音的情况如zhen，模糊音数组按照与原声音相似度排序，即[zhen,zen,zheng,zeng]。***将依次遍历数组，并在拼音序列中查找匹配。

使用模糊音能够提高更正词中提取更正字的成功率。同样，当将更正结构应用到前文中，即寻找错误的字并进行替换时，也需要模糊音匹配，以找到错误的字。具体实现，是将正确的字对应的拼音，展开为模糊音数组，使用数组中各元素在前文的拼音序列进行查找，然后再对找到的汉字进行替换。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种语音交互中的易错字校准方法，其特征在于，包括：

2.根据权利要求1所述的语音交互中的易错字校准方法，其特征在于，在识别语境步骤中，依据文本句子与语境知识库中不同领域的语境相似度来判断，作为自动纠错的前提；其中，语境相似度的具体算法如下：

SmoothContextSim(A,C_i)＝λ₁·ContextSim(A_-2,C_i)

+λ₂·ContextSim(A_-1,C_i)

+λ₃·ContextSim(A,C_i)

λ₁+λ₂+λ₃＝1

λ₁≤λ₂≤λ₃

3.根据权利要求1所述的语音交互中的易错字校准方法，其特征在于，还包括：

4.根据权利要求3所述的语音交互中的易错字校准方法，其特征在于，所述基于限制语义的自动纠错步骤，包括：

5.根据权利要求4所述的语音交互中的易错字校准方法，其特征在于，地名匹配规则包括如下任一个规则：

6.根据权利要求3所述的语音交互中的易错字校准方法，其特征在于，在基于限制语义的自动纠错步骤中，采用带权重的最长公共子序列算法来计算短文本相似度匹配；所述带权重的最长公共子序列算法，是指：两序列的任意两元素之间存在相似度函数，寻找两序列中相似度之和最大的公共子序列，其中，相似度函数定义为两拼音之间的拼音相似度。

7.根据权利要求6所述的语音交互中的易错字校准方法，其特征在于，所述拼音相似度，是指：分别计算两拼音中声母的相似度、两拼音中韵母的相似度，并对音节混用的情况分别赋予相应的相似度。

8.根据权利要求1所述的语音交互中的易错字校准方法，其特征在于，还包括：

第一形式：修改，字A是词B的字C；

第二形式：修改，第N个字A是词B的字C；

根据指示字，从更正词中提取正确字作为更正字进行替换。