CN104991965B

CN104991965B - 用于基于标准问创建扩展问的方法和装置

Info

Publication number: CN104991965B
Application number: CN201510438526.2A
Authority: CN
Inventors: 蔡宏伟; 朱频频
Original assignee: Guizhou Little Love Robot Technology Co Ltd; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Guizhou little love robot technology Co., Ltd.; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-07-23
Filing date: 2015-07-23
Publication date: 2018-11-23
Anticipated expiration: 2035-07-23
Also published as: CN104991965A; CN109241266B; CN109241266A

Abstract

本发明提供了一种用于基于标准问创建扩展问的方法，标准问和扩展问用于人工智能语义识别***中，包括：基于该标准问所属的数据范围从该人工智能语义识别***的内部数据源或外部数据源采集数据；以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集；以及对该相似问句集执行主语修改以获得该标准问的扩展问。

Description

用于基于标准问创建扩展问的方法和装置

技术领域

本发明涉及知识库的编辑与扩展，尤其涉及用于人工智能语义识别的标准问的扩展。

背景技术

人机交互是研究***与用户之间的交互关系的科学。***可以是各种各样的机器，也可以是计算机化的***和软件。例如，通过人机交互可以实现各种人工智能***，例如，智能客服***、语音控制***等等。人工智能语义识别是人机交互的基础，其能够对人类语言进行识别，以转换成机器能够理解的语言。

为了能够理解人类语言，人工智能语义识别***需要一套知识库。海量异构数据通过知识学习体系整理成知识，并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”；同领域企业的知识中可以总结出“领域语义库”，如图中的“电信领域语义库”；多个行业的知识还可以总结成“通用语义库和知识库”。

知识库的编辑与扩展对于人工智能语义识别***尤其重要。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种用于基于标准问创建扩展问的方法，标准问和扩展问用于人工智能语义识别***中，包括：

基于该标准问所属的数据范围从该人工智能语义识别***的内部数据源或外部数据源采集数据；

以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集；以及

对该相似问句集执行主语修改以获得该标准问的扩展问。

在一实例中，该基于该标准问所属的数据范围从内部数据源或外部数据源采集数据包括：若该标准问属于内部数据，则从该内部数据源调用所有内部数据，以及若该标准问属于外部数据，则通过该外部数据源进行搜索爬取。

在一实例中，该方法还包括对通过该外部数据源爬取到的所采集数据进行整理以过滤无用数据，该执行问句相似度计算是以整理后的所采集数据为对象来执行的。

在一实例中，若该标准问所属领域的词库在该人工智能语义识别***的知识库中已存在，则所属标准问为内部数据，否则为外部数据。

在一实例中，该内部数据源为该人工智能语义识别***的知识库中已存在的关于该标准问的所属领域的词库，以及该外部数据源包括与该标准问的所属领域相关的第三方数据库。

在一实例中，该问句相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者来执行的。

在一实例中，该相似问句集是与该标准问的相似度超过预定阈值的问句的集合。

在一实例中，该方法还包括至少部分地基于人工选择对该相似问句集执行筛选以过滤无用数据，该问句主语修改是对调整后的该相似问句集来执行的。

在一实例中，对该相似问句集执行主语修改是至少部分地基于人工选择来执行的。

根据本发明的另一方面，提供了一种用于基于标准问创建扩展问的装置，标准问和扩展问用于人工智能语义识别***中，包括：

数据采集单元，用于基于标准问所属的数据范围从该人工智能语义识别***的内部数据源或外部数据源采集数据；

问句相似度计算单元，用于以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集；以及

主语修改单元，用于对该相似问句集执行主语修改以获得该标准问的扩展问。

在一实例中，该数据采集单元包括：调用单元，以用于响应于该标准问属于内部数据，从该内部数据源调用所有内部数据；以及爬取单元，以用于响应于该标准问属于外部数据，通过该外部数据源进行搜索爬取。

在一实例中，该装置还包括：整理单元，以用于对通过该外部数据源爬取到的所采集数据进行整理以过滤无用数据。

在一实例中，该装置还包括：筛选单元，用于至少部分地基于人工选择对该相似问句集进行筛选以过滤无用数据。

在一实例中，该主语修改单元至少部分地基于人工选择对该相似问句集执行主语修改。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的创建扩展问的方法的流程图；

图2是示出了根据本发明的一方面的创建扩展问的装置的框图。

符号说明：

210：数据采集单元

211：调用单元

212：爬取单元

220：问句相似度计算单元

230：筛选单元

240：主语修改单元

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ，一般的形式是“问-答”对。在本发明中，“标准问”是用来表示某个知识点的文字，主要目标是表达清晰，便于维护。例如，“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”，而应广义地来理解一“输入”，该“输入”具有对应的“输出”。例如，对于用于控制***的语义识别而言，用户的一个指令，例如“打开收音机”也应可以被理解为是一个“问”，此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时，最理想的情况是使用标准问，则机器的智能语义识别***马上能够理解用户的意思。然而，用户往往并非使用的是标准问，而是标准问的一些变形的形式。例如，若对于收音机的电台切换的标准问形式是“换一个电台”，那么用户可能使用的命令是“切换一个电台”，机器也需要能够识别用户表达的是同一个意思。

因此，对于智能语义识别而言，知识库里需要有标准问的扩展问，该扩展问与标准问表达形式有略微差异，但是表达相同的含义。传统上，往往依赖人工“想”的形式，想出一个标准问尽可能多的扩展问，但是非常耗费人力，而且“漏想”的概率很高。

在本发明中，通过大数据分析聚合的方式，最大的利用了已有产品的日志数据与外部数据。快速定位到了语义扩展问的内容，将原来的“想”扩展问，改成了判定其内容准确性。

图1是示出了根据本发明的一方面的创建扩展问的方法100的流程图。如图1所示，首先提供一标准问，作为扩展的基础。例如，该标准问可为“换一个扫地模式”。

在步骤101，可对该标准问的数据范围进行判定。一般而言，数据范围可以分为内部数据和外部数据。这里的内部数据和外部数据是相对于人工智能语义识别***的知识库而言的。例如，若该标准问是该知识库内已有的数据，则为内部数据，否则为外部数据。

更具体地，若该标准问所属的语义领域是知识库中已有的领域，则为内部数据，否则为外部数据。以上述“换一个扫地模式”为例，该标准问用于扫地机器人，属于家电智能领域，若***的知识库内已经有关于家电智能领域的词库，则该标准问为内部数据，否则该标准问为外部数据。

在步骤102，为该标准问添加属性标签，用以指示该标准问的数据范围。

在步骤103，根据标准问的属性标签判断该标准问的数据范围。

如上所述，该数据范围包括内部数据和外部数据。不同的数据范围对应不同的处理。

若该标准问为内部数据，则执行步骤104，即内部数据调用。

较优地，该内部数据可以是该标准问所属的语义领域的所有内部数据。例如，该若该标准问属于家电智能领域，则可以调用内部关于家电智能领域的所有已有数据。若该标准问属于金融领域，且知识库内有关于金融领域的词库，则，该标准问属于内部数据，并且此时调用***内关于金融领域的所有内部数据。

此特征有助于利用人工智能***现有的日志数据。例如，若该人工智能语义识别***长期用于家电智能领域，则内部采集建立了大量与该领域相关的内部数据，这些数据对于建立家电智能领域的标准问的扩展问显然是非常高效率的。

若该标准问属于外部数据，则执行步骤105，即外部数据爬取。即，通过爬取技术对外部数据源进行搜索爬取。

这里的外部数据源可以是任何***外的第三方数据源，例如百度、搜搜等。这些数据源上积累了海量数据。

较优地，可以爬取与该标准问所属领域相关的第三方数据库。例如，若该标准问属于医药领域，则可以爬取医院网站、药品销售网站的日志数据。这些数据与标准问的相关性可能更高，从而提高效率。

由于外部数据的噪声较大，可以在步骤106对数据进行整理，以过滤无用的数据。

此后，在步骤107，可以执行这些数据与该标准问的问句相似度计算。此举的目的是从这些海量数据中筛选出与标准问比较相似的那些句子。

一般地，可以采用任何合适的相似度计算算法，例如文本聚类分析、LDA分析、序列分析(Template Maker)等等。

在步骤108，可以获得相似问句的聚合结果，即相似问句集。这里的相似问句集可包括与标准问的相似度高于预定阈值的那些句子。该阈值可以根据需要人为调节。

在步骤109，可对相似问句集进行初步筛选，以剔除无用数据。

在步骤110，可对相似问句的主语进行修改。这里的主语是指问句里的主体内容。以“换一个扫地模式”为例，这里的“扫地模式”为该标准问的主语。此调整。

修改主语后，可以得到最初该标准问的扩展问。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

上述步骤103、104、105、106、107、108可以看作是大数据处理部分。通过大数据分析聚合的方式，最大地利用了已有产品的日志数据和外部数据。

步骤101、102、109、110可以有人工地参与，例如响应于人工的选择进行筛选、主语修改，这可以增加精确度。当然，这些步骤也可以全自动地来执行。

以下表1示出了标准问、大数据聚合结果、最终扩展问结果的示例。

表1

图2是示出了根据本发明的创建扩展问的装置200的框图。

如图2所示，装置200可包括数据采集单元210。数据采集单元210用于基于标准问所属的数据范围从人工智能语义识别***的内部数据源或外部数据源采集数据。

如图所示，数据采集单元210可包括调用单元211和爬取单元212。调用单元210可响应于标准问属于内部数据，从内部数据源调用所有内部数据，而爬取单元212可响应于标准问属于外部数据，通过外部数据源进行搜索爬取。

若在人工智能语义识别***的知识库中已经有了该标准问所属领域的词库，则该标准问可被视为内部数据，否则为外部数据。相应地，该内部数据源可以是人工智能语义识别***的知识库中已存在的关于该标准问的所属领域的词库。另一方面，该外部数据源可包括与该标准问的所属领域相关的第三方数据库。

尽管图中未示出，装置200还可包括整理单元，以用于对通过外部数据源爬取到的所采集数据进行整理以过滤无用数据。

另外，装置200还可包括问句相似度计算单元220，用于以所采集数据为对象执行与该标准问的问句相似度计算以获得相似问句集。较优地，装置200还可包括筛选单元230，以用于对相似问句集进行筛选以过滤无用数据。在一些实例中，筛选过程可有人工参与，例如筛选单元230可至少部分地基于人工选择来执行筛选。

最后，装置200可包括主语修改单元240。主语修改单元240可对相似问句集执行主语修改以获得该标准问的扩展问。在一些实例中，主语修改可有人工参与，例如主语修改单元240可至少部分地基于用户的选择来修改主语。

通过大数据分析聚合的方式，最大的利用了已有产品的日志数据与外部数据。快速定位到了语义扩展问的内容，将原来的“想”扩展问，改成了判定其内容准确性。大幅提高了语义扩展的效率，并降低了“漏想”的概率。同时，定位的扩展问内容来自产品实际使用数据，更加贴合用户的实际使用习惯。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体***的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

软件应当被宽泛地解释成意味着指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等，无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其它术语来述及皆是如此。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种用于基于标准问创建扩展问的方法，标准问和扩展问用于人工智能语义识别***中，包括：

基于所述标准问所属的数据范围从所述人工智能语义识别***的内部数据源或外部数据源采集数据；若所述标准问所属领域的词库在所述人工智能语义识别***的知识库中已存在，则所属标准问为内部数据，否则为外部数据；

以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集，所述相似问句集是与所述标准问的相似度超过预定阈值的问句的集合；以及

对所述相似问句集执行主语修改以获得所述标准问的扩展问。

2.如权利要求1所述的方法，其特征在于，所述基于所述标准问所属的数据范围从内部数据源或外部数据源采集数据包括：

若所述标准问属于内部数据，则从所述内部数据源调用所有内部数据，以及

若所述标准问属于外部数据，则通过所述外部数据源进行搜索爬取。

3.如权利要求2所述的方法，其特征在于，还包括对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据，所述执行问句相似度计算是以整理后的所采集数据为对象来执行的。

4.如权利要求1所述的方法，其特征在于，所述内部数据源为所述人工智能语义识别***的知识库中已存在的关于所述标准问的所属领域的词库，以及所述外部数据源包括与所述标准问的所属领域相关的第三方数据库。

5.如权利要求1所述的方法，其特征在于，所述问句相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者来执行的。

6.如权利要求1所述的方法，其特征在于，还包括至少部分地基于人工选择对所述相似问句集执行筛选以过滤无用数据，所述问句主语修改是对调整后的所述相似问句集来执行的。

7.如权利要求1所述的方法，其特征在于，对所述相似问句集执行主语修改是至少部分地基于人工选择来执行的。

8.一种用于基于标准问创建扩展问的装置，标准问和扩展问用于人工智能语义识别***中，包括：

数据采集单元，用于基于标准问所属的数据范围从所述人工智能语义识别***的内部数据源或外部数据源采集数据；若所述标准问所属领域的词库在所述人工智能语义识别***的知识库中已存在，则所属标准问为内部数据，否则为外部数据；

问句相似度计算单元，用于以所采集数据为对象执行与所述标准问的问句相似度计算以获得相似问句集，所述相似问句集是与所述标准问的相似度超过预定阈值的问句的集合；以及

主语修改单元，用于对所述相似问句集执行主语修改以获得所述标准问的扩展问。

9.如权利要求8所述的装置，其特征在于，所述数据采集单元包括：

调用单元，以用于响应于所述标准问属于内部数据，从所述内部数据源调用所有内部数据；以及

爬取单元，以用于响应于所述标准问属于外部数据，通过所述外部数据源进行搜索爬取。

10.如权利要求9所述的装置，其特征在于，还包括：

整理单元，以用于对通过所述外部数据源爬取到的所采集数据进行整理以过滤无用数据。

11.如权利要求8所述的装置，其特征在于，还包括：

筛选单元，用于至少部分地基于人工选择对所述相似问句集进行筛选以过滤无用数据。

12.如权利要求8所述的装置，其特征在于，所述内部数据源为所述人工智能语义识别***的知识库中已存在的关于所述标准问的所属领域的词库，以及所述外部数据源包括与所述标准问的所属领域相关的第三方数据库。

13.如权利要求8所述的装置，其特征在于，所述主语修改单元至少部分地基于人工选择对所述相似问句集执行主语修改。