CN104199825A

CN104199825A - 一种信息查询方法和***

Info

Publication number: CN104199825A
Application number: CN201410352847.6A
Authority: CN
Inventors: 王东; 王晓曦; 赵芳; 刘荣; 游世学
Original assignee: BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: BEIJING ZHONGKE HUILIAN INFORMATION TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2014-07-23
Filing date: 2014-07-23
Publication date: 2014-12-10

Abstract

本申请提供了一种信息查询方法和***，其中，所述方法包括：将输入的语音信号识别成文字符号输出，得到待查询字符串；将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板；其中，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板；从知识库中查询得到所述第一模板对应的应答信息；通过语音和/或文字输出所述应答信息。通过本申请解决了传统基于模板匹配的搜索方法随着***模板数量和样式的增加，处理逻辑越来越复杂，搜索效率降低的问题。

Description

一种信息查询方法和***

技术领域

本申请涉及信息技术领域，特别是涉及一种信息查询方法和***。

背景技术

近年来，随着自然语言处理技术的发展，智能问答***受到了极大的关注，从聊天软件‘小黄鸡’的风靡，到流行于各大网络平台的应答机器人，智能问答***在众多领域得到应用。一个优质的问答***解决客户常见的问题，降低人工开销，并能提供24小时无间断服务。

然而，大多数问答***都是以文本键入的形式作为问答***的输入，繁琐费时，特别是在移动终端(如手机)等无键盘设备上，或对于老年人、残疾人等操作困难人群，文本输入变得异常困难。

因此，基于语音输入的问答***应运而生。虽然，基于语音的智能问答***具有快捷、方便、适用设备和人群广泛的优点。然而，将语音作为输入方式也带来了新的问题：

语音输入的方便性带来更大的随意性，因此，相应的***模板的数量和样式需要随着这种随意性的增加而增加。传统基于模板匹配的搜索方法随着***模板数量和样式的增加，处理逻辑越来越复杂，搜索效率降低，需要消耗大量时间进行匹配，增加了用户等待时间，用户体验较差，同时也增加了设备和***的处理负担。

发明内容

本申请提供了一种信息查询方法和***，以解决传统基于模板匹配的搜索方法搜索效率降低、耗时久的问题，以及由此带来的设备和***处理负担重的问题。

本申请公开了一种信息查询方法，包括：

将输入的语音信号识别成文字符号输出，得到待查询字符串；

将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板；其中，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板；

从知识库中查询得到所述第一模板对应的应答信息；

通过语音和/或文字输出所述应答信息。

可选地，所述多个模板通过以下方式按照有向图压缩进行共享合并，得到一个或多个压缩模板：

采集多个样本数据，将所述多个样本数据以字为单位进行数据拆分；

按照所述多个样本数据各自的语义顺序，将拆分后得到的字按图结构形式排列，得到所述多个模板；其中，所述多个模板的数据结构为图结构；

按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并，得到所述一个或多个压缩模板。

可选地，所述按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并，得到所述一个或多个压缩模板，包括：

按照图结构的可共享子结构模式，分别将满足上下文无关文法的多个模板中的相同字和/或不同字进行共享合并，得到所述一个或多个压缩模板；其中，所述压缩模板的数据结构为有向图压缩；

其中，

当所述满足上下文无关文法的多个模板，在各自对应的图结构的相同位置处的字相同时，以共享形式合并相同字；

当所述满足上下文无关文法的多个模板，在各自对应的图结构的相同位置处的字不同时，以***形式保留不同字。

可选地，所述将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板，包括：

将所述待查询字符串以字为单位进行数据拆分，并将拆分后得到的字按图结构形式进行排列；

分别获取排列后的待查询字符串对应的待查询集合，和，所述多个压缩模板对应的多个压缩模板集合；

分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径；

从所述多个压缩模板集合下获取一条与所述待查询集合之间匹配路径最小的路径；

将获取的最小的路径指示的模板确定为所述第一模板。

可选地，所述分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径，包括：

定义一个Token，所述Token对应集合v(i，j，h，s)，其中，i，j分别为所述集合v在集合I和集合J中的状态；h为所述集合v在集合I和集合J中经过的历史路径，s为所述历史路径的匹配距离；其中，所述集合I为压缩模板对应的集合，所述集合J为所述待查询字符串对应的集合；

在所述集合I和所述集合J的每一个状态中加入一条自动循环边；

对加入循环边后的集合I和集合J进行图扩展搜索，得到累积搜索历史和匹配距离；并，获取距离度量；

对所述累积搜索历史、匹配距离和所述距离度量求和，得到所述匹配路径。

可选地，所述距离度量包括：D(w1，w2)，其中，D(w1，w2)用于指示字w1和字w2之间的距离度量；

所述获取距离度量，包括：使用以下公式获取距离度量：

D (w 1, w 2) = \min_{r} Σ_{k} M (x_{r_{k}}, y_{r_{k}});

其中，所述x为字w1的音素串；所述y为字w2的音素串；r为x和y的对齐方式；和为基于所述对齐方式r的x和y的第k个音素；表示基于所述对齐方式r的x和y的第k个音素的混淆矩阵；

其中所述对齐方式包括：所述音素串x和所述音素串y首尾对齐。

相应地，本申请还公开了一种信息查询***，包括：

语音识别模块，用于将输入的语音信号识别成文字符号输出，得到待查询字符串；

模板匹配模块，用于将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板；其中，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板；

答案生成模块，用于从知识库中查询得到所述第一模板对应的应答信息；

输出模块，用于通过语音和/或文字输出所述应答信息。

可选地，所述多个模板通过以下模块按照有向图压缩进行共享合并，得到一个或多个压缩模板：

采集模块，用于采集多个样本数据，将所述多个样本数据以字为单位进行数据拆分；

排列模块，用于按照所述多个样本数据各自的语义顺序，将拆分后得到的字按图结构形式排列，得到所述多个模板；其中，所述多个模板的数据结构为图结构；

模板获取模块，用于按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并，得到所述一个或多个压缩模板。

可选地，所述模板获取模块，具体用于按照图结构的可共享子结构模式，分别将满足上下文无关文法的多个模板中的相同字和/或不同字进行共享合并，得到所述一个或多个压缩模板；其中，所述压缩模板的数据结构为有向图压缩；

其中，

可选地，所述模板匹配模块，包括：

数据拆分模块，用于将所述待查询字符串以字为单位进行数据拆分，并将拆分后得到的字按图结构形式进行排列；

集合获取模块，用于分别获取排列后的待查询字符串对应的待查询集合，和，所述多个压缩模板对应的多个压缩模板集合；

计算模块，用于分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径；

路径获取模块，用于从所述多个压缩模板集合下获取一条与所述待查询集合之间匹配路径最小的路径；

确定模块，用于将获取的最小的路径指示的模板确定为所述第一模板。

与现有技术相比，本申请包括以下优点：

首先，本申请实施例中基于语音输入的信息查询方法和***，通过将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。由于模板集下的多个模板按照有向图压缩进行共享重构，进而使大量不同的模板压缩合并成数量较少的一个或多个压缩模板，简化了搜索匹配时的逻辑运算处理过程，有效地提高了搜索效率，简化了搜索算法，解决大规模模板搜索过程的低效性和复杂性。同时，降低了设备和***的处理负担。

进一步地，用户以口述的形式输入问题，经过语音识别，模板匹配，把匹配结果传给知识库，从知识库中查询得到相应的应答信息输出，减少了用户的操作，提高了用户体验，拓广了用户人群。

当然，实施本申请的任一产品不一定需要同时达到以上所述的所有优点。

附图说明

图1是本申请实施例一中一种信息查询方法的步骤流程图；

图2是本申请实施例二中一种信息查询方法的步骤流程图；

图3是图2所示实施例中模板1基于字的FST结构的示意图；

图4是图2所示实施例中模板2基于字的FST结构的示意图；

图5是图2所示实施例中模板3基于字的FST结构的示意图；

图6是图2所示实施例中模板1、模板2和模板3基于字共享合并后的压缩模板的FST结构的示意图；

图7是本申请实施例三中一种信息查询方法的步骤流程图；

图8是图7所示实施例中的一种智能语音问答***的***架构示意图；

图9是本申请实施例四中一种信息查询***的结构框图；

图10是本申请实施例五中一种信息查询***的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

参照图1，示出了本申请实施例一中一种信息查询方法的步骤流程图。在本申请中，所述信息查询方法，包括：

步骤102，将输入的语音信号识别成文字符号输出，得到待查询字符串。

在本实施例中，通过前端处理(Front End Processing，FE)、搜索和解码(Search and Decoding)将输入的语音信号识别成文字符号输出。在对广播新闻或者电话、会议录音等语料处理时，还需要做相应的前端预处理工作，如：将长语音切分成语音片断输入，语音/非语音判别，宽窄带判别，男女声判别和音乐片断剔除等。

其中，

在前端处理过程中，基本任务是对语音特征的提取和归一化处理。常用的特征有MFCC(Mel Frequency Cepstrum Coefficient，梅尔频率倒谱系数)特征和PLP(Perceptual Linear Predictive,感知线性预测系数)特征。在特征提取基础上，通常需要进行一定的归一化，如：均值归一化处理，降低信道影响；方差归一化处理，降低加性噪声影响。通过前端处理，提高了声学模型(Acoustic Model，AM)的精度，和声学模型对声道、说话人、加性噪声等因素的鲁棒性。

在搜索和解码过程中，可以利用训练好的声学模型、语言模型(LanguageModel,LM)，以及联系这两个模型的发音词典(Lexicon)，将语音信号识别成文字符号输出。

步骤104，将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。

较佳地，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板。其中，所述多个模板的数据结构可以是图结构(也即，FST结构；其中，FST，Finite State Transducer，有限状态转移机)。在本实施例中，可以根据FST结构，将多个模板按照有向图压缩进行共享合并(也即，基于FST结构进行FST结构的压缩共享)，得到一个或多个压缩模板，所述压缩模板可以包含多个模板。由于，所述压缩模板是基于对FST结构的数据进行压缩得到的数据，故，所述压缩模板的数据结构也可以是FST结构。

在本实施例中，FST是对有限状态自动机(Finite State Machine，FSM)的扩展，可以用来精简表示一个有限状态转移过程。其中，一个FST可以表示为一个有向图(A，R)，其中A为点集合，R为边集合。R中的每个边则又可以表示为一个五元组(s，e，w，t，c)，其中s和e分别为该边的初始和到达状态，w和t分别为输入元素和输出元素，c为该边的权值。FST可以用来表达上下文无关文法(Context-Free Grammar，CFG，上下文无关文法)，因此所有符合上下文无关文法的模板都可以表达为一个FST。

步骤106，从知识库中查询得到所述第一模板对应的应答信息。

步骤108，通过语音和/或文字输出所述应答信息。

综上所述，本实施例所述的信息查询方法，通过将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。由于模板集下的多个模板按照有向图压缩进行共享重构，进而使大量不同的模板压缩合并成数量较少的一个或多个压缩模板，简化了搜索匹配时的逻辑运算处理过程，有效地提高了搜索效率，简化了搜索算法，解决大规模模板搜索过程的低效性和复杂性。同时，降低了设备和***的处理负担。

实施例二

参照图2，示出了本申请实施例二中一种信息查询方法的步骤流程图。在本实施例中，用于实现所述信息查询方法的可以是一个终端设备/装置。

本实施例的所述信息查询方法，包括：

步骤202，终端将输入的语音信号识别成文字符号输出，得到待查询字符串。

在本实施例中，所述终端既可也接收语音信息的输入，将语音信息对应的语音信号识别成文字符号输出；也可以直接地接收文本信息的输入。

步骤204，终端设备将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。

较佳地，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板。

下面结合图3、图4、图5和图6对一种基于字的压缩模板的生成获取流程进行说明。其中，图3是本实施例中模板1基于字的FST结构的示意图；图4是本实施例中模板2基于字的FST结构的示意图；图5是本实施例中模板3基于字的FST结构的示意图；图6是本实施例中模板1、模板2和模板3基于字共享合并后的压缩模板的FST结构的示意图。这里需要说明的是，在图3(或图4、或图5)中的数字“0、1、2、3、4、5、6”分别表示FST结构中的一个节点，同时，也表示模板3对应的集合下的每一个状态。

其中，模板1、模板2和模板3之间满足上下文无关文法

<模板1>:＝请问鲁迅生日

<模板2>:＝请问杨过生日

<模板3>:＝请问谁过生日

较佳地，所述多个模板可以通过以下方式，按照有向图压缩进行共享合并，得到一个或多个压缩模板：

首先，终端设备采集多个样本数据，将所述多个样本数据以字为单位进行数据拆分。

终端采集获取模板1、模板2和模板3，并将模板1、模板2和模板3按以字为单位进行拆分。其中，模板1按字拆分为：请-问-鲁-迅-生-日；模板2按字拆分为：请-问-杨-过-生-日；模板3按字划分为：请-问-谁-过-生-日。

然后，终端设备按照所述多个样本数据各自的语义顺序，将拆分后得到的字按图结构形式排列，得到所述多个模板。其中，所述多个模板的数据结构为图结构。

较佳地，所述图结构即为FST结构。按字拆分后的模板1、模板2和模板3按照原有的语义顺序以图结构形式进行排列，即分别得到如图3、图4和图5所示的FST结构的模板。

最后，终端设备按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并，得到所述一个或多个压缩模板。

其中，终端设备按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并可以是指：如，在图3、图4和图5中，分别对序号0处的“请、请、请”进行合并，序号1处的“问、问、问”进行合并，序号2处的“鲁、杨、谁”进行合并。其它位置处的合并方式可以参照上述序号0、1、2处的合并方式。

在本实施例中，终端设备按照图结构的可共享子结构模式，分别将满足上下文无关文法的多个模板中的相同字和/或不同字进行共享合并，得到所述一个或多个压缩模板。其中，所述压缩模板的数据结构为有向图压缩。较佳地，所述有向图压缩可以是FST结构。其中，

例如，参照图3、图4和图5，终端按照模板1、模板2和模板3对应的FST结构由左向右(这里的“左”“右”是参照图示所指)的顺序，依次将满足上下文无关文法的模板1、模板2和模板3基于字进行共享合并，得到所述一个压缩模板。即，将相同字(如，请、问、过、生、日等字的共享)进行共享合并；将不同字以决策树***形式进行保留(如，谁、杨和鲁三个字的***成三个分支进行保留)。进而得到如图6所示的一个基于字合并后的FST结构的压缩模板。

由此可见，在本实施例中，通过基于字的FST合并，可以将多个满足上下文无关文法的模板结合起来，形成一个大的FST，并通过确定化和最小化，使得模板可共享的部分充分共享，从而大大节约空间和计算开销。有效提高了模板匹配的空间和时间效率，进一步地，本实施例实现的是基于字的FST共享方法。在汉语中虽然词可以无限增长，但汉字集是相对封闭的(字的数量在很长一段时间内基本是保持不变的)，也就是说，即使有新词增加，在本实施例中，任何新增加的新词都可以拆分为现有的多个汉字，进而实现模板的共享合并。基于字的FST共享方法不仅可以摆脱对分词***的依赖，简化了对未登录新词的处理，而且可以实现模板的进一步共享，从而进一步压缩了搜索空间。

这里需要说明的是，在对模板进行结构重构时，也可以以词为单位进行共享合并重构。然而，相对于新字而言，新词的增加速度非常快，因此，若采用基于词进行FST结构重构，则使得在模板匹配过程中，匹配搜索方法将受限于分词***，极大限制了模板的共享，继而产生效率问题。在本实施例中，采用基于字进行FST结构重构，可以有效增加路径共享，减小FST的体积，进而提高了搜索匹配效率。

在本实施例中，上述步骤204具体可以包括如下子步骤：

子步骤2042，终端设备将所述待查询字符串以字为单位进行数据拆分，并将拆分后得到的字按图结构形式进行排列。

子步骤2044，终端设备分别获取排列后的待查询字符串对应的待查询集合，和，所述多个压缩模板对应的多个压缩模板集合。

子步骤2046，终端设备分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径。

较佳地，终端设备在计算所述待查询集合与所述多个压缩模板集合之间的匹配路径时，可以按照如下流程计算：

第一步，终端设备定义一个Token，所述Token对应集合v(i，j，h，s)，其中，i，j分别为所述集合v在集合I和集合J中的状态；h为所述集合v在集合I和集合J中经过的历史路径，s为所述历史路径的匹配距离。其中，所述集合I为压缩模板对应的集合，所述集合J为所述待查询字符串对应的集合。

在本实施例中，所述Token可以是一个存储搜索状态的数据结构，如，在Token中可以存储历史匹配路径和历史匹配距离等数据信息。

第二步，终端设备在所述集合I和所述集合J的每一个状态中加入一条自动循环边。

在本实施例中，图3所示的模板1对应的集合可以用集合I表示，也即，图3所示的“0、1、2、3、4、5、6”可以对应集合I中的各个状态。同理，也可以用“0、1、2、3、4、5、6”对应表示集合J中的各个状态。

第三步，终端设备对加入循环边后的集合I和集合J进行图扩展搜索，得到累积搜索历史和匹配距离；并，获取距离度量。

在本实施例中，距离度量D(w1,w2)描述了字(或词)w1和字(或词)w2之间的距离度量。在传统精确匹配算法中，D(w1,w2)定义如下：

D (w 1, w 2) = \{\begin{matrix} 0 & w 1 = = w 2 \\ \infty & w 1 &NotEqual; w 2 \end{matrix}

其中，当两个字(如，字w1和字w2)或两个词(如，词w1和词w2)完全相同时，即，w1＝＝w2时，则确定字w1和字w2(或，词w1和词w2)之间的距离度量D的值为0。当字w1和字w2不同(或，词w1和词w2中有任意一个字不同)时，即，w1≠w2时，则确定字w1和字w2(或，词w1和词w2)之间的距离度量的值为无穷大。

采用传统的精准匹配算法，只有当两个字完全相同时才能匹配成功，当两个字不同时则会匹配失败。当输入信息是文件信息时，采用传统的精准匹配算法进行匹配，得到的模板准备度较高。但是，当输入信息是语音信息时，在语音信号识别成文本信息的过程中，由于受口音、噪声等各种因素的影响，识别结果经常会出现一些随机错误，采用传统的精准匹配算法(完全精准算法)很难在FST模板中匹配成功。如“请问谁过生日”这句话很可能被语音识别***识别成“请问谁的生日”，虽然绝大部分字识别正确，但一个“过”字的不匹配导致整个搜索失败。语音识别中这种小错误几乎每句都有，使得传统FST搜索方法几乎无法得到结果。

在本实施例中，在搜索过程中允许搜索串和模板之间存在一定程度的不匹配，特别是在计算匹配测度的时候考虑匹配对之间的发音相似性。故，较佳地，可以将距离度量D定义为编辑距离，具体定义如下：

D (w 1, w 2) = \{\begin{matrix} 0 & w 1 = = w 2 \\ cs & w 1 &NotEqual; w 2; w 1, w 2 &NotEqual; < eps > \\ cd & w 1 = = < eps >, w 2 &NotEqual; < eps > \\ ci & w 1 &NotEqual; < eps > w 2 = = < eps > \end{matrix}

其中cs、cd、ci可以分别表示在字w1和字w2(或，词w1和词w2)发生替换错误、删除错误和***错误时对应的距离度量的值。其中，所述距离度量的值可以根据实际情况确定，如，设置为1、或2或其它满足实际应用场景的分值。同时，为了使算法简单，引入了一种输入为空(<eps>)的边，从而使对不同错误的处理统一于距离度量D的计算中。

以字w1和字w2为例，

当字w1和字w2相同时，即，w1＝＝w2时，则字w1和字w2之间的距离度量D的值为0。

当字w1和字w2不同，且，字w1和字w2均不为空时，即，w1≠w2，w1，w2≠<eps>时，则确定字w1和字w2之间发生替换错误，其中，cs表示字w1和字w2发生替换错误时，度量距离D的值。

当字w1为空，字w2不为空时，即，w1＝＝<eps>，w2≠<eps>时，则确定字w1和字w2之间发生删除错误，其中，cd表示字w1和字w2发生删除错误时，度量距离D的值。

当字w1不为空，字w2为空时，即，w1≠<eps>，w2＝＝<eps>时，则确定字w1和字w2之间发生***错误，其中，ci表示字w1和字w2发生***错误时，度量距离D的值。

由此可见，在本实施例中通过较自由的距离度量D的计算方法，提高模板匹配的准确度。例如，我们可以将TF-IDF(Term Frequency–InverseDocument Frequency，一种用于资讯检索与资讯探勘的加权技术)引入到D的计算中，对那些重要的领域相关字给以更高的权重；或依据语法分析的结果，对主体字加大计算权重，使得匹配过程更关注于关键字(或词)的匹配与否。特别重要的是，这些权重可以附加在FST的边权重上，从而不必对搜索过程做任何改变。在本实施例中，利用D的灵活性，针对语音输入中的特殊错误模式进行有效补偿。本实施例在FST搜索过程中引入模糊匹配，允许一定的***、删除和替换错误，并引入声音混淆矩阵来对匹配错误进行权重重估，从而解决了语音问答***的容错问题。基于发音相似性的模糊搜索方法，不仅可以增强***的容错性，而且可以针对语音识别的特殊错误模式进行补偿，从而有利于对用户输入的有效理解，进而提高整个***的性能。

第四步，终端设备对所述累积搜索历史、匹配距离和所述距离度量求和，得到所述匹配路径。

在本实施例中，FST模糊匹配算法目的是找到一条I和J间差异最小的匹配路径。其基本思路是将全局路径匹配任务分解为部分路径匹配任务，部分匹配的结果保存在一个称为Token的数据结构中，通过Token在I和J两个FST中进行扩展和路径匹配。这一扩展和匹配直到某一Token到达两个FST的终结状态，这一Token所记录的匹配路径即为最佳匹配结果。

子步骤2048，终端设备从所述多个压缩模板集合下获取一条与所述待查询集合之间匹配路径最小的路径。

子步骤20410，终端设备将获取的最小的路径指示的模板确定为所述第一模板。

步骤206，终端设备从知识库中查询得到所述第一模板对应的应答信息。

步骤208，终端设备通过语音和/或文字输出所述应答信息。

实施例三

结合上述实施例，下面以一个基于汉字有限状态转移机模糊匹配的智能语音问答***的实例来对本实施例中一种信息查询方法的步骤流程进行详细说明。

在本实施例中，参照图7，示出了本申请实施例三中一种信息查询方法的步骤流程图。所述信息查询方法，具体包括：

步骤702，语音问答***建立基于字的FST的共享模板集，得到***模板库。

在本实施例中，用于实现本实施例的信息查询方法的可以是一个智能语音问答***。参照图8，示出了本申请实施例三中一种智能语音问答***的***架构示意图。

较佳地，用于实现本实施例所述的信息查询方法的语音问答***800可以包括：语音识别子***802和问答子***804。进一步地，所述问答子***804中可以包括：模板匹配模块8042和答案生成模块8044；更进一步地，所述问答子***804中还可以包括：***模板库8046和知识库8048。用户以口述的形式将问题作为输入传给语音识别子***802，语音识别子***802将语音输入转换为文本后传给问答子***804。问答子***804得到这些文本输入后，模板匹配模块8042与***模板库8046中的模板进行匹配，得到最接近的匹配模板，进而答案生成模块8044通过搜索知识库8048得到问题的相应答案，并输出答案。

在本实施例中，所述语音问答***在进行自动问答过程之前，需要建立基于字的FST的共享模板集，即***模板库。

较佳地，可以将多个样本模板转换成FST结构的FST模板。然后，按照上下文无关文法，将转换后的多个FST模板划分为多个组。分别对每组中的满足上下文无关无法的多个FST模板以字为单位进行拆分共享。其中，若同一位置处的字相同，则多个FST模板共享所述相同字；若同一位置处的字不同，则以决策树***的形式，将多个不同字进行合并压缩。经过相同字的共享和/或不同字的合并，得到一个包含所有满足上下文无关文法的、共享后的FST模板，即基于字的FST的共享模板为共享模板。每一组可以但不仅限于对应一个共享模板，将多组对应的多个共享模板作为***模板库中的数据进行存储，即得到共享模板集。

步骤704，语音问答***接收用户的语音输入，并将输入的语音信号识别成文字信号输出。

在本实施例中，所述语音问答***下的语音识别子***将输入的语音信号识别成文字信号输出；其中，输出的文字信号为待查询字符串。

步骤706，语音问答***将所述待查询字符串与***模板库中的共享模板集进行模糊匹配，得到匹配模板。

在本实施例中，可以采用FST模糊匹配算法对所述待查询字符串和***模板库中的共享模板集进行模糊匹配。较佳地，语音问答***下的问答子***将模板集定义为I；将待查询字串也转成FST结构，并定义为J。FST模糊匹配算法目的是找到一条I和J间差异最小的匹配路径。其基本思路是将全局路径匹配任务分解为部分路径匹配任务，部分匹配的结果保存在一个称为Token的数据结构中，通过Token在I和J两个FST中进行扩展和路径匹配。这一扩展和匹配直到某一Token到达两个FST的终结状态，这一Token所记录的匹配路径即为最佳匹配结果。

其中，语音问答***在将所述待查询字符串与***模板库中的共享模板集进行模糊匹配时，采用的FST模糊匹配算法具体可以如下：

定义：

T：当前活跃的Token列表

T.top(n)：Token列表T中匹配距离最低的前n个Token集合

merge(T)：对T中Token进行合并，当多个Token的状态对(i，j)相同时，保留匹配距离最小的Token

prune(T)：对T中的Token进行剪枝

M.S：FST M中初始状态集合

M.E：FST M中终止状态集合

E(m,M)：在FST M中对状态m的边扩展列表

st(m,e,M)：在FST M中对状态m通过边e所到达的状态

e.w：边e包含的输入字符

e.c：边e的权重值c

eh(h,(e1,e2))：对历史h加入边对(e1,e2)

D(w1,w2)：表示两个汉字w1和w2之间的距离度量

<eps>：零输入字符

算法:

初始化：

(1)对I和J每一个状态加入自循环边，其输入和输出字符为<eps>

(2)for each(i∈I.S&&j∈J.S):

T＝T∪v(i,j,{},0)}

搜索过程：

较佳地，在语音问答***中，语音识别的输出虽然有显著的随机错误，但这些错误并不是杂乱无章的，其中绝大部分发音和正确发音都具有相似性，我们可以利用这种相似性来规范FST模糊匹配算法中距离度量D的计算，对发音相近的错误匹配给以较小的匹配距离，对发音相差较大的错误匹配给以较大的匹配距离。

在本实施例中，基于音素间发音的相似性来计算字或词间的发音相似性。音素是最小的语音单位，每个音素都有自己的发音特色。同时，音素的基元数目较少，如表1所示，汉语标准普通话中有35个音素，因而计算简便。

表1

音素对之间具有明显的相似性，这些相似性可以用混淆矩阵M来表示，其中第(i,j)个元素M(i,j)给出音素i和j的混淆程度。为了更能反映语音识别***对相近发音的混淆规律，我们将语音识别结果表示为音素串，并与该句标准发音的音素串进行对比，可以得到某一音素被识别为另一音素的可能性，表示为：

M(i,j)＝P(i|j)＝C(i|j)/C(j)

其中C(j)为标准发音中音素的个数，C(i|j)为语音识别结果中标准发音j被识别成音素i的个数，P(i|j)为音素j被识别成音素i的概率。基于M(i,j)，我们可以计算两个字或词(w1,w2)的距离度量D(w1，w2)。设w1的音素串为x，w2的音素串为y，则，

D (w 1, w 2) = \min_{r} Σ_{k} M (x_{r_{k}}, y_{r_{k}})

其中，r可以是x和y的一种对齐方式，和为基于r对齐方式的x和y的第k个音素(允许空音素存在)。对基于对齐方式r的音素串x和音素串y的第k个音素进行求和，得到基于r对齐方式的x和y的第k个音素的最小值，所述最小值即为D(w1，w2)的值，将计算得到的D(w1,w2)的值用于上述具体的算法过程中。其中，所述r对齐方式可以但不仅限于：所述音素串x和所述音素串y首尾对齐。例如：

当音素串x和音素串y的字符串数量相同时，如，音素串x为：t₁t₂t₃；音素串y为：T₁T₂T₃；其中，t₁、t₂、t₃、T₁、T₂和T₃可以分别是元音基于或辅音基元。此时，对齐方式为：首先确定首尾对齐，即，t₁与T₁对齐，t₃与T₃对齐。然后，在确定t₂与T₂对齐。

当音素串x和音素串y的字符串数量不同时，如，音素串x为：t₄t₅t₆t₈；音素串y为：T₄T₅T₆T₇T₈；其中，t₄、t₅、t₆、t₈、T₄、T₅、T₆、T₇和T₈可以分别是元音基元或辅音基元。此时，对齐方式为：首先，确定首尾对齐，即，t₄与T₄对齐，t₈与T₈对齐。然后，t₅t₆与T₅T₆T₇则存在多种对齐方式：若t₅与T₅对齐，则t₆与T₆T₇对齐；若t₅与T₅T₆对齐，则t₆与T₇对齐。基于公式分别计算每种对齐方式的距离度量，并从中获取距离度量最小的值作为最终的数据计算结果。

由此可见，基于发音相似性的模糊搜索方法，不仅可以增强***的容错性，而且可以针对语音识别的特殊错误模式进行补偿，从而有利于对用户输入的有效理解，进而提高整个***的性能。

步骤808，语音问答***根据得到的匹配模板从知识库中搜索得到相应的答案。

在本实施例中，所述语音问答***下的问答子***通过搜索知识库得到所述匹配模板对应的答案。其中，知识库是根据***模板库对应建立的，存储有所述***模板库中所有模板问题对应的答案。

需要说明的是，对于前述的方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请所必需的。在上述方法实施例中，图结构也即FST结构，有向图压缩也即：对FST结构的模板基于FST结构进行压缩共享。

实施例四

基于上述方法实施例的说明，本申请还提供了相应的信息查询***实施例，来实现上述方法实施例所述的内容。

参照图9，示出了本申请实施例四中一种信息查询***的结构框图。在本实施例中，所述信息查询***，包括：

语音识别模块902，用于将输入的语音信号识别成文字符号输出，得到待查询字符串。

模板匹配模块904，用于将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。

其中，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板。

答案生成模块906，用于从知识库中查询得到所述第一模板对应的应答信息。

输出模块908，用于通过语音和/或文字输出所述应答信息。

综上所述，本实施例所述的信息查询***，通过将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。由于模板集下的多个模板按照有向图压缩进行共享重构，进而使大量不同的模板压缩合并成数量较少的一个或多个压缩模板，简化了搜索匹配时的逻辑运算处理过程，有效地提高了搜索效率，简化了搜索算法，解决大规模模板搜索过程的低效性和复杂性。同时，降低了设备和***的处理负担。

实施例五

参照图10，示出了本申请实施例五中一种信息查询***的结构框图。在本实施例中，所述信息查询***，包括：

语音识别模块1002，用于将输入的语音信号识别成文字符号输出，得到待查询字符串。

模板匹配模块1004，用于将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板。

其中，所述模板集下包括多个模板，所述多个模板按照有向图压缩进行共享合并，得到一个或多个压缩模板。较佳地，所述多个模板通过以下模块按照有向图压缩进行共享合并，得到一个或多个压缩模板：

在本实施例中，所述模板获取模块，具体用于按照图结构的可共享子结构模式，分别将满足上下文无关文法的多个模板中的相同字和/或不同字进行共享合并，得到所述一个或多个压缩模板；其中，所述压缩模板的数据结构为有向图压缩；

其中，

较佳地，在本实施例中，所述模板匹配模块1004可以包括：

数据拆分模块10042，用于将所述待查询字符串以字为单位进行数据拆分，并将拆分后得到的字按图结构形式进行排列。

集合获取模块10044，用于分别获取排列后的待查询字符串对应的待查询集合，和，所述多个压缩模板对应的多个压缩模板集合。

计算模块10046，用于分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径。

在本实施例中，所述计算模块10046可以包括：

定义模块，用于定义一个Token，所述Token对应集合v(i，j，h，s)。

较佳地，i，j分别为所述集合v在集合I和集合J中的状态；h为所述集合v在集合I和集合J中经过的历史路径，s为所述历史路径的匹配距离。其中，所述集合I为压缩模板对应的集合，所述集合J为所述待查询字符串对应的集合。

添加模块，用于在所述集合I和所述集合J的每一个状态中加入一条自动循环边。

路径计算模块，用于对加入循环边后的集合I和集合J进行图扩展搜索，得到累积搜索历史和匹配距离；并，获取距离度量；对所述累积搜索历史、匹配距离和所述距离度量求和，得到所述匹配路径。

较佳地，所述距离度量包括：D(w1，w2)，其中，D(w1，w2)用于指示字w1和字w2之间的距离度量；

所述获取距离度量，包括：使用以下公式获取距离度量：

D (w 1, w 2) = \min_{r} Σ_{k} M (x_{r_{k}}, y_{r_{k}});

较佳地，所述x为字w1的音素串；所述y为字w2的音素串；r为x和y的对齐方式；和为基于所述对齐方式r的x和y的第k个音素；表示基于所述对齐方式r的x和y的第k个音素的混淆矩阵。

其中，所述对齐方式包括：所述音素串x和所述音素串y首尾对齐。

路径获取模块10048，用于从所述多个压缩模板集合下获取一条与所述待查询集合之间匹配路径最小的路径。

确定模块100410，用于将获取的最小的路径指示的模板确定为所述第一模板。

答案生成模块1006，用于从知识库中查询得到所述第一模板对应的应答信息。

输出模块1008，用于通过语音和/或文字输出所述应答信息。

对于上述***实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域技术人员易于想到的是：上述各个实施例的任意组合应用都是可行的，故上述各个实施例之间的任意组合都是本申请的实施方案，但是由于篇幅限制，本说明书在此就不一一详述了。

以上对本申请所提供的一种信息查询方和***进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信息查询方法，其特征在于，包括：

从知识库中查询得到所述第一模板对应的应答信息；

通过语音和/或文字输出所述应答信息。

2.如权利要求1所述的方法，其特征在于，所述多个模板通过以下方式按照有向图压缩进行共享合并，得到一个或多个压缩模板：

3.如权利要求2所述的方法，其特征在于，所述按照图结构的可共享子结构模式，分别对满足上下文无关文法的多个模板进行共享合并，得到所述一个或多个压缩模板，包括：

其中，

4.如权利要求1所述的方法，其特征在于，所述将所述待查询字符串按照设定匹配规则分别与模板集下的多个压缩模板进行匹配，得到与所述待查询字符串相匹配的压缩模板中的第一模板，包括：

将获取的最小的路径指示的模板确定为所述第一模板。

5.如权利要求4所述的方法，其特征在于，所述分别计算所述待查询集合与所述多个压缩模板集合之间的匹配路径，包括：

6.如权利要求5所述的方法，其特征在于，所述距离度量包括：D(w1，w2)，其中，D(w1，w2)用于指示字w1和字w2之间的距离度量；

所述获取距离度量，包括：使用以下公式获取距离度量：

D (w 1, w 2) = \min_{r} Σ_{k} M (x_{r_{k}}, y_{r_{k}});

7.一种信息查询***，其特征在于，包括：

输出模块，用于通过语音和/或文字输出所述应答信息。

8.如权利要求7所述的***，其特征在于，所述多个模板通过以下模块按照有向图压缩进行共享合并，得到一个或多个压缩模板：

9.如权利要求8所述的***，其特征在于，

所述模板获取模块，具体用于按照图结构的可共享子结构模式，分别将满足上下文无关文法的多个模板中的相同字和/或不同字进行共享合并，得到所述一个或多个压缩模板；其中，所述压缩模板的数据结构为有向图压缩；

其中，

10.如权利要求7所述的***，其特征在于，所述模板匹配模块，包括：