CN102394061B

CN102394061B - 基于语义检索的文语转换方法及***

Info

Publication number: CN102394061B
Application number: CN2011103512258A
Authority: CN
Inventors: 傅泽田; 李鑫星; 张领先; 温皓杰; 李道亮; 刘雪
Original assignee: China Agricultural University
Current assignee: China Agricultural University
Priority date: 2011-11-08
Filing date: 2011-11-08
Publication date: 2013-01-02
Anticipated expiration: 2031-11-08
Also published as: CN102394061A

Abstract

本发明涉及语音合成技术领域，提供了一种基于语义检索的文语转换方法及***。本发明的方法和***中，首先同时使用正向最大匹配和逆向最大匹配，几乎全部的非歧义字段都可以被切分出，大大提高了文本切分的准确度，改善了语音合成效果。此外，本发明将文本切分方法与传统的基于语义的信息检索方法相结合，借鉴信息检索技术中对于关键词的处理方式，来进行歧义字段的处理，可有效提高歧义字段自动识别的效率和准确度，大大提高语音合成的效果。

Description

基于语义检索的文语转换方法及***

技术领域

本发明涉及语音合成技术领域，特别涉及一种基于语义检索的文语转换方法及***。

背景技术

语音合成是通过机械的、电子的方法产生人造语音的技术，语音合成和语音识别技术是实现人机语音通信等高级人机交互方式的关键技术。语音合成的目的是将任意信息实时转化为标准流畅的语音朗读出来，涉及声学、语言学、数字信号处理、计算机等多个领域的技术，是信息处理领域的一项前沿技术。语音合成要让计算机能够自动产生高清晰度、高自然度的连续语音，这与传统的声音回放技术有着本质的区别。传统的声音回放设备，如磁带录音机等，是通过预先录制声音然后回放来实现语音重现的；这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机进行的语音合成则可以在任何时候将任意信息转换成具有高自然度的语音，从而真正实现人机之间的智能交互。

文语转换(Text to Speech)技术隶属于语音合成，是将计算机设备自动产生的或是外部输入的文字信息转变为可以听得懂的、流利的汉语(或其他语种，视具体需求而定)口语输出的技术，文语转换***实际上可以看作是一个人工智能***。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。文语转换过程通常包括语言学处理、韵律处理和声学处理几个方面，一个好的文语转换***应能输出音质清晰、自然流畅的语音，而不是简单的语音合成，这需要***能够对文本进行语言学的分析，确定文本中关于语音的字、词、句的区分以方便后续韵律处理的调整。

目前的文语转换***中，多数是结合词典对文本全文进行遍历，按最大匹配长度识别词语和短句从而对文本进行切分。但由于文本中通常存在大量的歧义字段(即可能存在多种识别方式的字段)，由于歧义字段造成的文本切分的多样性，给自动分词带来了极大的困难，目前大多的文语转换技术，都不得不把歧义字段的每一个字都切分为一个词，在每个词之间都***停顿间隔标记，而导致合成的语音一字一断，不自然的停顿较多，机械性极强，与人类自然流畅的发音相去甚远，这也是限制文语转换技术发展的最大瓶颈。

发明内容

(一)要解决的技术问题

本发明为了解决现有技术中对歧义字段自动识别效果不佳的问题，提供了一种基于语义检索的文语转换方法及***，可以有效地自动切分文本中的歧义字段，显著提高合成语音的质量。

(二)技术方案

为实现上述目的，一方面，本发明提供一种基于语义检索的文语转换方法，所述方法包括步骤：

S1，对输入的文本信息分别进行正向最大匹配和逆向最大匹配；

S2，对比两种匹配方式对文本切分的结果，将切分相同的文本字串直接作为切分结果执行步骤S6～S7；对切分不同的文本字串执行步骤S3～S7；

S3，提取每一文本字串中的最大交集型歧义切分字段；

S4，对每一歧义切分字段进行语义检索；

S5，根据语义检索匹配情况识别每一歧义切分字段作为切分结果；

S6，根据切分结果进行单词的语音韵律处理；

S7，将经过韵律处理的全部单词按文本顺序合成为语音输出。

优选地，步骤S3中，通过计算文本字串中歧义字段前后边界处的汉字间的互信息来提取最大交集型歧义切分字段。

优选地，步骤S4中，所述语义检索包括：

S401，在采用资源描述框架对本体模型进行形式化表示的基础上进行每一歧义切分字段的定性推理，实现歧义切分字段的语义扩展；

S402，用Voronoi图形式化表示本体模型的基础上进行语义扩展后的歧义切分字段的定量推理，得到歧义切分字段与扩展后语义概念的语义相似度；

S403，采用词汇关联度对扩展后语义概念进行检索，判断歧义切分字段能否表达出明确的语义概念。

优选地，步骤S403中，在本体实例中进行检索。

优选地，步骤S5中，歧义切分字段能够表达出明确的语义概念时作为完整词切分，歧义切分字段不能表达出明确的语义概念时切分为单字组合。

另一方面，本发明还同时提供一种基于语义检索的文语转换***，所述***包括：

正向最大匹配模块和逆向最大匹配模块，分别对输入的文本信息进行正向最大匹配和逆向最大匹配；

匹配结果比对模块，对比两种匹配方式对文本切分的结果，将切分相同的文本字串直接作为切分结果交给韵律处理模块；将切分不同的文本字串交给提取模块；

提取模块，根据匹配结果比对模块提供的文本字串提取其中的最大交集型歧义切分字段交给语义检索模块；

语义检索模块，对每一歧义切分字段进行语义检索；

匹配识别模块，根据语义检索匹配情况识别每一歧义切分字段作为切分结果交给韵律处理模块；

韵律处理模块，根据切分结果进行单词的语音韵律处理；

语音合成模块，将经过韵律处理的全部单词按文本顺序合成为语音输出。

优选地，所述提取模块中，通过计算文本字串中歧义字段前后边界处的汉字间的互信息来提取最大交集型歧义切分字段。

优选地，所述语义检索模块进一步包括：

定性推理模块，在采用资源描述框架对本体模型进行形式化表示的基础上进行每一歧义切分字段的定性推理，实现歧义切分字段的语义扩展；

定量推理模块，用Voronoi图形式化表示本体模型的基础上进行语义扩展后的歧义切分字段的定量推理，得到歧义切分字段与扩展后语义概念的语义相似度；

概念检索模块，采用词汇关联度对扩展后语义概念进行检索，判断歧义切分字段能否表达出明确的语义概念。

优选地，所述概念检索模块中，在本体实例中进行检索。

优选地，所述匹配识别模块中，歧义切分字段能够表达出明确的语义概念时作为完整词切分，歧义切分字段不能表达出明确的语义概念时切分为单字组合。

(三)有益效果

利用本发明的方法和***，将文本切分方法与传统的基于语义的信息检索方法相结合，借鉴信息检索技术中对于关键词的处理方式，来进行歧义字段的处理，可有效提高歧义字段自动识别的效率和准确度，大大提高语音合成的效果。

附图说明

图1为本发明中基于语义检索的文语转换方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明的目的是将文语转换方法与传统的语义检索方法相结合，借鉴语义检索术中对于关键词的处理方式，来进行歧义字段的处理。将技术成熟的基于本体的语义搜索方法引入到文语转换中，只需根据具体知识领域向已经建好的本体模型中扩充少量实例即可，而无需对语义搜索做出任何改动，也无需再去检索文本，使得***较易实现，大大降低了开发成本。

下面根据附图1对本发明的基于语义检索的文语转换方法进行说明。在图1中，基于语义检索的文语转换方法的完整流程为：

S1：对输入的文本信息分别进行正向最大匹配和逆向最大匹配；

S2：对比两种匹配方式对文本切分的结果，将切分相同的文本字串直接作为切分结果执行步骤S6；对切分不同的文本字串执行步骤S3～S7；

S3：提取每一文本字串中的最大交集型歧义切分字段；

S4：对每一歧义切分字段进行语义检索；

S5：根据语义检索匹配情况识别每一歧义切分字段作为切分结果；

S6：根据切分结果进行单词的语音韵律处理；

S7：将经过韵律处理的全部单词按文本顺序合成为语音输出。

其中，步骤S1中，正向最大匹配是指按文本的自然顺序(自然阅读顺序或输入顺序)遍历文本，将遍历时得到的文本字串按词典可识别的最大长度字串进行切分；逆向最大匹配是指按文本的自然顺序的逆序遍历文本，将遍历时得到的文本字串按词典可识别的最大长度字串进行切分。一般来说，逆向匹配的切分精度略高于正向匹配，遇到的歧义现象也较少：统计结果表明，单纯使用正向最大匹配的错误率为1/169，单纯使用逆向最大匹配的错误率为1/245，常见的文本识别方法中通常采用逆向最大匹配(如输入法中通常采用这种方式识别输入字词)，但对于语音合成来说，这种精度还远远不能满足实际的需要，合成后的语音输出停顿感较严重。本发明中同时使用正向最大匹配和逆向最大匹配，使得文本初步切分的精度即可大大提升。

对于两种匹配切分相同的字串，可以认定为是正确的切分结果进行输出。但同时使用正向最大匹配和逆向最大匹配必然会出现切分不完全相同的字串(除非文本中完全不存在歧义表述，这在实际情况中基本不可能出现)，这部分字串仍然会影响语音合成效果，本发明中为能更准确地提取歧义字段，还将对结果不同的部分进行更进一步的处理。具体地，步骤S3中，对切分结果不同的每一文本字串从中提取全部最大交集型歧义切分字段：

其中，交集型歧义字段是指，在字串ABC中，AB属于词典中的词语或短句，BC同样属于词典中的词语或短句，但整个字串ABC又不在词典中，则称ABC是交集型歧义字段。而最大交集型歧义切分字段的定义为：设S＝C₁C₂C₃…C_n为长度n的任一字串，S_max＝C_i…C_j为S的一个子串(1≤i＜j≤n)，并且S_max为交集型歧义切分字段；如果在S中不存在包含S_max的更大的交集型歧义切分字段，则称S_max为S的最大交集型歧义切分字段。例如在句子“你任何时候都可以来找我”中，“任何时”和“任何时候”均为交集型歧义切分字段，但“任何时候”涵盖了“任何时”，同时不为任何交集型歧义切分字段所包含，故“任何时候”是最大交集型歧义切分字段，“任何时”则不是。最大交集型歧义切分字段不再与周围任何字发生新的交叉关系，具有一定的独立性，这使得我们有可能把它们从上下文环境中分离出来进行独立处理。但***工作时，仅根据词典无法确认最大交集型歧义切分字段，如采用人工识别显然又失去了自动语音合成的意义。

因而在本发明中，根据汉字之间的互信息来提取最大交集型歧义切分字段。互信息是指，对于有序汉字串xy，汉字x与y之间的互信息为I(x，y)＝p(x，y)/p(x)p(y)；其中p(x，y)表示汉字串xy作为二字词出现的概率，p(x)、p(y)分别表示x和y作为单字词独立出现的概率。为了保证在歧义字段提取时提取的事最大歧义字段，可先计算正向最大匹配和逆向最大匹配结果不同部分前后分界处相邻两字的互信息，若互信息I(x，y)≠0，则将分界处的字并入歧义字段，并继续计算新分界处的互信息，直到I(x，y)＝0为止。

例如对上述文本“你任何时候都可以来找我”分别使用正向最大匹配法和逆向最大匹配法，其结果为：

FMM：你/任何/时候/都/可以/来/找/我

RMM：你/任/何时/候/都/可以/来/找/我

若提取“任何时”为歧义字段，则歧义字段前后边界处的互信息：

前边界处，I(你，任)＝0；后边界处，I(时，候)≠0。因此“任”可以作为歧义字段的前边界，但“时”不能作为歧义字段的后边界，而应将其并入歧义字段中。

这样歧义字段变为“任何时候”，再次计算新歧义字段边界的互信息：

前边界处，I(你，任)＝0；后边界处，I(候，都)＝0。至此已满足互信息的要求，最终提取的歧义字段为“任何时候”，也实现了提取最大交集型歧义切分字段的目的。

提取完最大交集型歧义切分字段后的字串中已不存在歧义字段，可以直接将剩余字词作为切分结果输出。

步骤S4中，通过将最大交集型歧义切分字段作为关键词进行语义检索来判断是否可将该字段作为完整词切分。本步骤中，只要能确定字段(关键词)可以表达出明确的语义概念，就会把关键词作为一个完整的词进行切分，否则就将其切分为若干个单字组合。

因而在本步骤首先需要确定字段是否能够表达出明确的语义概念。本发明中，首先需要对提交的关键词进行语义推理，以提取其语义概念。语义概念的提取是在本体模型的基础上实现的，包含定性推理与定量推理两类。定性推理是在采用资源描述框架(ResourceDescription Framework，RDF(S))对本体模型进行形式化表示的基础上实现的，而定量的推理是在用Voronoi图形式化表示本体模型的基础上实现的。

具体地，先定义集合中的二元关系表示为：集合U上的一个二元关系R是U×U的一个子集，即有序对<x，y>集合，其中x，y∈U，表示为：xRy。U上的所有二元关系集合表示为Rel(U)，U上的最小关系是空集，表示为

最大关系是全集关系U×U，表示为V。另外，设R是U上的一个关系，有：

(1)若x∈U，xRx，则R是自反的；

(2)若x，y∈U，xRy→yRx，则R是对称的；

(3)若x，y，z∈U，xRy且yRz→xRz，则R是传递的。

如果提交的关键词是知识本体中的节点，该节点通过类的继承，一类的实例为另一类的属性，一类的实例为另一类的子类，具有共同属性的类具有相关关系。在知识本体的概念间进行推理，从而将关键词代表的节点与预先定义的本体实例节点相关联，获得关键词的扩展概念，实现第一步的语义扩展。

经过上一步的语义扩展后，得到了关键词的扩展概念，这些概念与关键词语义相关，但是相关的程度仍没有度量，为能客观描述关键词与相关概念间的相关程度，采用了基于Voronoi图形式化表示的概念间的语义相似度算法。在计算节点的语义相似度时，通过路径距离来计算：假设Voronoi图中两个节点的路径距离为d，得到两个节点间的语义相似度为：

Sim (n_{1}, n_{2}) = \frac{α}{d + α};

其中n₁，n₂表示Voronoi图中的两个节点，d是n₁，n₂两个节点的路径距离，α是一个可调节的参数。

当两个节点具有传递相关关系时，这种传递关系包括以下三种情况：直接相关关系(包括：一类的实例为另一类的属性，一类的实例为另一类的子类，具有共同属性的类)、包含相关(二级子类对其上级一级子类的继承)以及传递相关(通过直接相关关系或包含相关的传递产生)。这三种情况对相似度计算结果的影响程度是不同的，为区别这三种关系的不同影响程度，本发明采用如下的计算公式来计算两节点的语义相似度：

Sim (n_{1}, n_{2}) = Σ_{i = 1}^{3} β_{i} Π_{j = 1}^{i} {Sim}_{j} (n_{1}, n_{2});

其中，n₁，n₂是Voronoi图的两个节点，β₁，β₂，β₃分别表示直接相关关系相似度Sim1(n₁，n₂)、包含相关相似度Sim₂(n₁，n₂)与传递相关相似度Sim₃(n₁，n₂)在语义相似度计算中所占的权重。

最后用语义概念去进行检索；本发明使用关键词的语义概念进行检索，但被检索的内容不是大量的文本，而是构建好的本体实例，这样可以节省大量的检索时间，提高效率。换句话说，如果把本体实例视为检索问题中的文本的话，那么文本库中的待检索文本都只是单个的词。如果能够检索到，就认为关键词能够表达出明确的语义概念。

在语义检索时，为判断关键词的语义概念是否匹配本体实例，采用一种词汇关联度的方法来提取含有潜在关系的基因对，然后利用同义词辞典来给出基因对之间的关系。具体地，对于基因k和l，其关联度的计算公式为：

association [k] [l] = Σ_{i = 1}^{N} W_{i} [k] * W_{i} [l];

其中，k为文档中的第k个基因项，表示了关键词的语义概念，l为本体实例，W_i[k]＝T_i[k]*Log(N/n[k])，N为语料中文本的总数(即为本体实例的个数)，T_i[k]为文档d_i中第k个基因项出现的频率(由于文档的内容是单个的词，T_i[k]的取值只能为0或1)，n[k]为语料中包含第k个基因项的文本数目(包含第k个基因项的本体实例的数目，n[k]的取值同样只能为0或1)。

当关联度association[k][l]超过设定的阀值时，即检索到了本体实例，也即认为关键词能够表达出明确的语义概念，作为完整词进行切分；反之，将其切分为单字组合。

本发明引入文本检索模块，但并实际去检索文本，被检索的内容不是大量的文本，而是本体实例。因此在文本切分过程中，需要根据实际领域知识的需要，扩充少量本体实例。

本发明以棉花病虫害知识为例，介绍本体实例的扩充过程。棉花病虫害知识包含三类子集：名词性概念类子集、个体类子集以及谓词性概念类子集。

(一)名词性概念子集(Norminal.SC).

(1)必备元素

实例：氮、磷、钾......

(2)棉花病害

实例：缺氮症、炭疽病、褐斑病......

(3)常用药品

A.粉剂

实例：二氯苯醌粉剂、三乙磷酸铝粉剂、百菌清粉剂......

B.喷雾

实例：波尔多液、甲基托布津、杀线虫药剂......

(4)棉花生长阶段

实例：苗期、吐絮期、花铃期......

(5)棉花种类

实例：锯齿棉、长绒棉、鲁棉研20号......

(二)个体类子集(Individual-Organization.SC)

(1)棉花部位

实例：根、茎、叶......

(2)棉花虫害

实例：玉米冥、地老虎、棉粉虱......

(三)谓词性概念子集(Verbal.SC)

棉花病虫害知识的谓词子集中的概念具有动作行为，这一动词子类的成员包括有：

(1)选种

(2)保苗

(3)施药

本发明使用Protégé本体建模工具来创建棉花病虫害知识本体。在Protégé中最左边的一列是类标签，使用类标签导航来创建棉花病虫害知识本体的所有类结构。在Protégé中类是以层次结构组织的，每个类可以包含子类，类及子类可以定义自己的属性。在刚开始Protégé的类结构中只包含THING类，是Protégé中所有类的父类。在Protégé中要创建一个新的类可以通过点击创建类按钮，在类的编辑区可以输入类的相关信息如类的名称、文档、约束等。要创建某个类的子类，首先选中此类然后点击创建类按钮。如创建***中“常用药品”类的子类，须先选择“常用药品”类。使用Protégé本体建模工具创建知识本体来扩充本体实例的具体过程实际上是一个人工预定义本体实例规则的过程，开发人员根据相关领域的知识进行处理即可，并非本发明的关键实施步骤，在此不再详述。

最后，韵律处理及语音合成也直接决定着合成语音的质量，步骤S6、S7的主要功能是：根据切分完毕的文本和对应的韵律参数，从原始语音库中取出相应的语音单元，而语音库中的语音单元事先已经录制，收录了所有汉字的读音，利用语音标注的方法对语音单元进行韵律参数的调整和修改，最终合成出符合要求的语音。更具体地，本发明利用Microsoft SDK采集了1176个汉语带调音节作为原始语音单元，并以此语音单元合成出所有汉字的语音。本发明不仅合成出单个字的语音，还合成出本体库中所有本体，也就是每次“词”的语音。在合成词的语音时，还需消除每个字首尾的无声段或者白噪声。在此利用语音信号有声段的短时能量和过零率都大于无声段的特性，首先计算录制的语音信号短时能量和短时过零率，设置不同的门限，采用双门限比较法就可以把无声段删除。语音单元的采集频率为22050Hz，最终合成的语音存储格式是“.wav”。

本发明设计了一种基于语义检索的文语转换方法及***，将文本切分方法与传统的基于语义的信息检索方法相结合，借鉴信息检索技术中对于关键词的处理方式，来进行歧义字段的处理。同时将较为成熟的基于本体的语义搜索方法引入文本切分中，而且这种引入，几乎无需对语义搜索做出任何改动，只是无需再去检索文本，而本体构建方法、基于本体的语义推理模模型、检索模型等等都无需做任何改动，只是需要跟据具体知识领域，向已经建好的本体模型中扩充少量实例，这也充分体现了低成本的思想。本发明可有效解决文本切分技术关于歧义字段处理的问题，进而可以突破限制文语转方法发展的瓶颈。

据统计，汉语文本中90％左右的句子，正向最大匹配和逆向最大匹配的切分完全重合且正确；而9％左右的句子虽然两种切分不同，但其中必有一个是正确的；只有不到1％的句子会出现切分错误。因而，在本发明中，由于同时使用正向最大匹配和逆向最大匹配，几乎全部的非歧义字段都可以被切分出，这大大提高了文本切分的准确度，改善了语音合成效果。

而没有被切分出的部分，即分别使用两种方法切分不一致的部分，也就是歧义字段的所在的文本，本发明也进行了进一步处理。据统计，汉语真实文本中，歧义切分现象出现的概率约为1/110，即平均110个汉字中出现一次歧义切分，其中，交集型歧义切分占86％。本发明通过对交集型歧义切分进行了高效准确地处理，利用歧义字段的语义检索方式大大提高了歧义字段的自动识别率，因而最大可能地减少了语音合成时不自然的停顿感，改善了语音合成效果。

最后，随着信息、通信技术的发展，特别国家12316新农村热线的开通，如果能通过呼叫中心平台将农业知识以语音的形式传输给农民，将为农民的生产生活提供很大的帮助。但目前各地12312热线由于现有技术的自动文语转换技术并不成熟，大多只能采用人工座席和专家咨询的方式，而并没有将大量的书本、文本知识录制成语音而直接传输给农民的。采用本发明的方法和***可以有效支持此类语音热线，即降低了提供服务的成本，又大大丰富了服务内容和实现效果。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种基于语义检索的文语转换方法，其特征在于，该方法用于汉语的文语转换，并且包括步骤：

S3，提取每一文本字串中的最大交集型歧义切分字段；

S4，对每一歧义切分字段进行语义检索；

S6，根据切分结果进行单词的语音韵律处理；

2.根据权利要求1所述的方法，其特征在于，步骤S3中，通过计算文本字串中歧义字段前后边界处的汉字间的互信息来提取最大交集型歧义切分字段。

3.根据权利要求1所述的方法，其特征在于，步骤S4中，所述语义检索包括：

4.根据权利要求3所述的方法，其特征在于，步骤S403中，在本体实例中进行检索。

5.根据权利要求3所述的方法，其特征在于，步骤S5中，歧义切分字段能够表达出明确的语义概念时作为完整词切分，歧义切分字段不能表达出明确的语义概念时切分为单字组合。

6.一种基于语义检索的文语转换***，其特征在于，所述***用于汉语的文语转换，并且包括：

语义检索模块，对每一歧义切分字段进行语义检索；

韵律处理模块，根据切分结果进行单词的语音韵律处理；

7.根据权利要求6所述的***，其特征在于，所述提取模块中，通过计算文本字串中歧义字段前后边界处的汉字间的互信息来提取最大交集型歧义切分字段。

8.根据权利要求6所述的***，其特征在于，所述语义检索模块进一步包括：

9.根据权利要求8所述的***，其特征在于，所述概念检索模块中，在本体实例中进行检索。

10.根据权利要求8所述的***，其特征在于，所述匹配识别模块中，歧义切分字段能够表达出明确的语义概念时作为完整词切分，歧义切分字段不能表达出明确的语义概念时切分为单字组合。